De Federale Overheidsdienst Beleidsondersteuning (FOD BOSA)
en AI4Belgium organiseren een hackathon rond het thema AI4Gov. Iedereen met interesse in het aanwenden van AI om overheidsprocessen efficiënter en/of gebruiksvriendelijker te maken, is meer dan welkom om deel te nemen! De hackathon is momenteel voorzien voor maart 2021.
Ik ben blij om deel te mogen uitmaken van het stuurcomité van dit event. Mijn achtergrond laat me alvast toe om diepgaande technische analyses te maken van de projecten en voorgestelde oplossingen. Daarnaast zal ik zeker ook speciale aandacht geven aan de eerlijkheid, verantwoording, transparantie, ethiek en privacy ervan. Terzijde, ik vind het materiaal dat beschikbaar is op het Kenniscentrum Data en Maatschappij erg waardevol om te helpen met dit soort analyses.
Ieder AI-project steunt op grote hoeveelheden data. Goede data kan moeilijk of duur zijn om te verzamelen, en daarnaast zijn er ook privacy-verzuchtingen als de data verband houdt met personen. De GDPR legt op Europees niveau hoge standaarden en restricties op voor dataverzameling, -beheer en -gebruik.
De consument wordt zo optimaal beschermd, maar het werk van de datawetenschapper wordt niet gemakkelijker. Mede daarom vindt het concept van “synthetic data” opgang: fictieve gegevens, die de statistische eigenschappen van de oorspronkelijke dataset simuleert. Toepassingen zijn het herbalanceren van een dataset, het maskeren of anonimiseren van gevoelige data, of het maken van simulatieomgevingen voor machine learning toepassingen.
In Covid-tijden, werden alle seminaries en presentaties omgezet naar webinars - zo ook deze, een updated versie van mijn ‘Valkuilen in AI’-presentatie die ik al verschillende keren heb gegeven. Ik voeg telkens het laatste en beste toe wat betreft AI-mislukkingen, het blijft amusant!
Dit webinar was gegeven op uitnodiging van Ordina voor hun JOIN Ordina JWorks event. De presentatie, in het Engels dit keer, werd opgenomen en op YouTube gezet:
Voor professionele vertalers verandert de snelle opkomst van online vertaalmotoren (Google/Bing Translate, Deepl, etc.) hun jobinhoud. Maar zijn die ook bruikbaar voor simultaantolken? In dit artikel voor de blog van Smals Research werp ik een blik op de uitdagingen en de stand van de technologie.
Dit artikel werd met enkele kleine updates ook gepubliceerd in IT Daily.
In mijn eerste artikel van 2020 op de Smals Research blog beschrijf ik 5 algemene vragen die wij onszelf alvast stellen voordat we in het diepe water van een nieuw AI project springen. Het artikel bevat ook vele links naar andere bronnen waar meer wijsheden over het management van AI-projecten gevonden kunnen worden.
Met enige regelmaat spreek ik ook voor een algemeen publiek over de onderwerpen die ik bestudeer bij Smals Research. Laatst heb ik het vooral over de risico’s waarmee AI-projecten gepaard gaan, en die tussen alle hype door relatief onderbelicht blijven. AI is geen toverstokje waarmee alles van de eerste keer lukt: het is een verzameling complexe technologieën en om tot een goed resultaat te komen moet er op veel gelet worden. In deze presentaties belicht ik dan ook wat er kan mislopen tijdens de ontwikkeling van een AI-systeem (trainingsdata, confounding variables, objectieffunctie), bij deployment (aanvallen tegen AI-systemen), de impact op ons als burger (bias, fairness, transparantie) en op de samenleving (aandachtspunten voor beleid, ethiek, etc.).
In mijn laatste blogpost voor Smals Research, bespreek ik het ontdekken van informatie in onhandelbaar grote en onbekende datasets, en het daarmee gerelateerde probleem van het anonimiseren van resultaten op grote schaal. Dit soort problemen komt soms voor in juridisch onderzoek, onderzoeksjournalistiek of auditing. Leer het een en ander over het concept van e-discovery hier.
AI is een hype waar ook de overheid naar kijkt als mogelijke oplossing voor allerlei soorten problemen. Om de promopraatjes te doorprikken en overheidsdiensten met de voeten op de grond te zetten, gaf ik met collega Katy een reeks druk bijgewoonde, tweetalige, presentaties voor Belgisch overheidspersoneel. AI, wat is er nu eigenlijk van aan, en wat kan je ermee doen in een (administratieve) overheidscontext? De slides zijn online te downloaden.
Naast een kort overzicht van de verschillende onderdelen van AI, Machine Learning en Natural Language Processing, wordt ook aandacht besteed aan de praktische kant van de zaken: hoe zit het met de dataverzameling en de wetgeving, wat zijn de vereisten op technisch vlak, hoe organiseer je het hertrainen en onderhouden van AI-systemen, en welke kwesties spelen er op ethisch vlak? Alles wordt geïllustreerd aan de hand van kleine voorbeelden die zelf werden uitgewerkt binnen Smals.
Deze presentatie werd later nog verschillende keren herhaald voor een gevarieerd publiek. Ik blijf dit onderwerp nog wel even actief opvolgen. Wie hier graag eens over van gedachten wisselt, of zelf goede voorstellen heeft voor een AI-toepassing bij de overheid, mag dus gerust contact opnemen!
In mijn laatste blogpost voor Smals Research heb ik het over de risico’s die de laatste vooruitgangen in AI met zich meebrengen voor onze kennismaatschappij: wat is de impact op bvb. spam, scams, fake news of information warfare? Een hot topic met de Europese verkiezingen in aantocht, en uiteraard afgesloten met enkele aanbevelingen.
In opdracht van de afdeling analyse en prospectie van de arbeidsmarkt van FOREM, de Waalse tegenhanger van VDAB, werkte ik als lid van het expertenpanel mee aan hun laatste rapport over de evolutie en opportuniteiten van AI-gerelateerde beroepen: Métiers d’avenir - Les métiers de l’intelligence artificielle (document in het Frans).
Canvas organiseerde een nieuwe editie van hun wedstrijd voor amateurmuzikanten Speel het hard rond eind 2018. Dit keer was er minder voorbereidingstijd, en ik nam uiteindelijk Rachmaninovs 1e concerto als uitdaging. Ook de combinatie met mijn nieuwe job by Smals die leidde tot minder mogelijkheden om te oefenen, maakte dat ik niet echt klaar was tegen de tijd van de finaleselectie begin 2019. Toch was het een mooie gelegenheid om het pianospel op niveau te houden. Ook hier is [mijn projectpagina nog steeds online, inclusief mijn oefenvideo’s.
In deze blogpost voor Smals Research bespreek ik enkele van de vele Facetten van Natural Language Processing. In dit eerste artikel heb ik het onder andere over zinsontleding en automatische vertaling.
Edit 07/02/2019: ondertussen staat een tweede deel ook online. Komen hier aan bod: classificatie, entiteitsherkenning en het algemenere probleem van (syntactische en semantische) ambiguïteit.
Van 2010 tot 2018 organiseerde ik de Belgische Informatica-Olympiade in Vlaanderen. Zo was ik ook deputy leader voor het Belgisch team op de volgende Internationale Olympiades Informatica:
In 2017 organiseerde Canvas de wedstrijd voor amateurmuzikanten Speel het hard. De opdracht was om een uitdagend werk voor je instrument in te studeren, tot concertzaal-klare perfectie, binnen een tijdspanne van ongeveer 6 maanden. Een reeks videoblogs moest je vooruitgang documenteren. Ik nam van de gelegenheid gebruik om mijn pianokunsten wat af te stoffen, en gelijk eens iets jazzier te proberen met Kapustin’s 2e sonate. Ik heb de finale dan wel niet gehaald, maar het deed wel deugd om mijn technisch kunnen opnieuw op het niveau van 10 jaar eerder te krijgen. De projectpagina, inclusief mijn oefenvideo’s , staat nog online.
Van 2014 tot 2016 ontwikkelde ik de online bibliotheek van het Koninklijk Conservatorium Brussel. Dat omvatte het hele project van analyse tot oplevering, de setup en configuratie van een nieuw OPAC-systeem, een serieuze inspanning om de datakwaliteit op een aanvaardbaar niveau te krijgen, datamigratie, statistiek en monitoring, etc. Het lijvige eindrapport van de volledige migratie is hier beschikbaar.
In Boston, 24-26 oktober 2016, werkte ik samen met Helmut Herglotz aan een zoekmachine voor muziek vertrekkende van bezetting. Metadata voor instrumentatie is nauwelijks gestandaardiseerd, dus je krijgt zelfs vandaag nergens goede resultaten. Ik deed het meeste werk aan het formatteren van een geschikte dataset, Helmut stak een frontend in elkaar in Django, en het resultaat is te bekijken op YouTube
Voor de hackday in London in 2013 maakte ik gebruik van verschillende APIs en Python libraries om een muziekfragment in stukken te kappen, de melodie te extraheren, en daarvan de toonhoogte te wijzigen volgens een bepaald schema. De resulterende MidiModulator staat op Github, waar ook enkele links staan naar de eerste (best wel grappige!) resultaten.
Aan Queen Mary University’s Center for Digital Music, ondernam naamgenoot Joachim Fritsch een gedetailleerde vergelijking van Hennequin’s audioseparatiemethode met de mijne, en stelde een hybride versie voor met betere resultaten. Zijn uitstekende werk, inclusief een nauwgezet manueel samengestelde evaluatiedatabase van multitrack audio-opnames, is beschikbaar in C4DMs digitale archief.
Hackdays leiden niet altijd tot een werkend resultaat. In London op 3-4 december 2010 was mijn doel om polyfonische audiotranscriptie te proberen, door een aaneenrijging van verschillende softwarelibraries die elk een stukje van het probleem oplossen. Helaas elk ook met een aanzienlijke foutenmarge, zodat er aan het eind van de rit geen zinnige output uit kwam. Een lijst van de projecten van dat weekend staat nog online, maar de detailpagina’s zijn verdwenen. Als ik nog iets terugvind in mijn archieven breidt ik deze post later nog uit.
Meer info over de ISMIR 2010 paper Evaluation of a score-informed source separation system, inclusief de database gebruikt voor evaluatie, is hier te vinden.
Het resultaat van MusicHackDay San Francisco op 15-16 mei 2010: een proof-of-concept plugin voor MuseScore die een lijstje geeft van alle opnames van een ingeladen partituur zoals teruggegeven door last.fm. Meer details hier.
Meer informatie over de ICMC 2010 paper Source Separation by Score Synthesis, inclusief audiovoorbeelden en databestanden, is te vinden op mijn CCRMA-pagina’s
In 2008 gebruikte ik graag de MuseScore partituur-editor (pre-1.0), die toen enkel bestond op Linux en Windows. Ik was net naar Mac overgeschakeld om cross-platform softwareontwikkeling te kunnen doen, dus wou MuseScore ook op OSX. De meeste onderliggende libraries waren cross-platform, en het OSX subsysteem lijkt nogal op Linux, dus dat zou niet te moeilijk mogen zijn… Ik kon een eerste prototype tonen in december 2008.
Bleek dat er nogal wat eigenaardigheden zaten aan het compileren van C++ op Mac, waarbij vooral de problemen met het lettertype en de rendering erg moeilijk op te lossen waren. Met hulp van de andere MuseScore developers en een erg nuttige bugfix in het Canorus project (zij hadden hetzelfde lettertypeprobleem), kon ik in april 2009 de eerste alpha versie van MuseScore op OSX (10.4 of 10.5) bekendmaken.
Nadien namen andere projecten mijn tijd in beslag en ik heb sindsdien niet meer bijgedragen aan de MuseScore codebase. Ik ontmoet de developers echter nog altijd regelmatig op events zoals FOSDEM.