- Ik ben Edwin Rijgersberg en ik werk als machine learning engineer.
- Ik schrijf zo nu en dan over AI, vooral gericht op de toepassingen binnen de Nederlandse taal.
- Uiteraard altijd op persoonlijke titel.
Interview in de Poki-podcast: "Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg"
Deze week had ik de eer om te gast te zijn in de podcast van Alexander Klöpping en Wietse Hage: Poki – de Podcast over Kunstmatige Intelligentie. We hadden een goed gesprek over GEITje, het finetunen van Large Language models in het algemeen en voor het Nederlands in het bijzonder. We hebben ongeveer een half uur gesproken, en het gesprek is bijna integraal in de podcast beland. Inclusief wat nu wel een klassieker moet worden: de Bassietest....
GEITje FAQs: Waarom de naam "GEITje"?
De tweede van een serie posts over vragen die ik over GEITje krijg. “Waarom de naam GEITje?” Muppets, koeien en zeerobben De naam “GEITje” zat eigenlijk al veel langer in mijn hoofd als naam voor een Nederlandstalig groot taalmodel. Naamgeving in de wereld van de taalmodellen is onderhevig aan interessante trends. In 2017 begon de Muppet-generatie van taalmodellen met Allen Institute for AI’s ELMo, gevolgd door Googles doorbraak BERT. Uiteraard lieten ERNIE, Grover en BigBIRD niet lang op zich wachten....
GEITje FAQs: Waarom ik GEITje heb gemaakt
De eerste van een serie posts over vragen die ik over GEITje krijg. “Waarom heb je een taalmodel gemaakt?” Die vraag heb ik de afgelopen weken meermaals gekregen. Meestal meteen gevolgd door een vervolgvraag: “ChatGPT bestaat toch al?” Geen gekke vraag, eigenlijk. Hieronder mijn drie belangrijkste redenen: 1. Omdat open modellen nodig zijn ChatGPT doet het geweldig in het Nederlands. Als je een toepassing hebt waar je een LLM voor wilt proberen, pak vooral ChatGPT of één van de OpenAI APIs....
GEITje 7B: een groot open Nederlands taalmodel
Het is nu meer dan twee weken geleden dat ik GEITje 7B heb ge-opensourced. Het was een spannend moment, zeker omdat dit mijn eerste grote open source bijdrage is. Maar ik vind het heel leuk om te zien hoe enthousiast alle reacties zijn geweest! GEITje is een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het is (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen....
De boot gemist: waarom het Nederlands ontbreekt in het belangrijkste open Europese taalmodel
Drie vrijwilligers. Een paar weken aan werk. Dat is wat er nodig was om een taal op te nemen in BigScience BLOOM, het open meertalige taalmodel met maar liefst 176 miljard parameters dat halverwege 2022 uitkwam. Het moest een open, meertalig alternatief voor GPT-3 worden. Uiteindelijk zijn er 46 talen van over de hele wereld beland in de dataset waarmee BLOOM getrained is. Ook relatief kleine talen als het Baskisch en het Catalaans kregen het voor elkaar om opgenomen te worden....
Mijn praatje op EuroPython 2023: "Threat to Life — Preventing Planned Murders with Python"
Ik kan niet vaak publiekelijk iets uit de doeken doen over het soort zaken dat we bij het Nederlands Forensisch Instituut doen met behulp van AI, maar op de afgelopen EuroPython 2023 in Praag heb ik namens het NFI iets kunnen vertellen over een zaak die een paar jaar terug speelde en waar het NFI al eerder een persbericht over uitstuurde: het Threat-to-Life-project. Politie kon live meelezen met criminelen Het was de politie in 2020 gelukt om live mee te kunnen lezen bij een aanbieder van zogenaamde cryptotelefoons: gemodificeerde telefoons die — tegen een flinke betaling — gebruikt werden om versleuteld te communiceren in het criminele circuit....