Hoi! 👋

Ik ben Edwin Rijgersberg en ik ben oprichter van AI Studio Delta.
Ik schrijf zo nu en dan over AI, vooral gericht op de toepassingen binnen de Nederlandse taal.
Uiteraard altijd op persoonlijke titel.

Neem een voorbeeld aan de Fransen: Nederland heeft data harder nodig dan GPUs

“Data!” Ik heb altijd hetzelfde antwoord als mij gevraagd wordt wat voor investeringen er nodig zijn om Nederlandstalige AI verder te helpen. Data. GPUs zijn fijn, maar daarvoor hoef ik niet in Groningen te zijn. Ik kan nu ook al terecht bij bestaande Europese “AI-fabrieken” zoals de MareNostrum5 supercomputer in Barcelona. Goede en grote hoeveelheden Nederlandstalige data is wat we écht nodig hebben. En die hebben ze Barcelona dan weer niet....

Het einde van GEITje 1

Op dringend verzoek van Stichting BREIN is GEITje vanaf heden niet meer beschikbaar. Alle model files zijn verwijderd uit mijn HuggingFace repos1. GEITje was een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het was (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen. Zoals vermeld in de README is GEITje eind 2023 onder meer getraind op gedeeltes van het Nederlandse Gigacorpus....

Interview in de Poki-podcast: "Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg"

Deze week had ik de eer om te gast te zijn in de podcast van Alexander Klöpping en Wietse Hage: Poki – de Podcast over Kunstmatige Intelligentie. We hadden een goed gesprek over GEITje, het finetunen van Large Language models in het algemeen en voor het Nederlands in het bijzonder. We hebben ongeveer een half uur gesproken, en het gesprek is bijna integraal in de podcast beland. Inclusief wat nu wel een klassieker moet worden: de Bassietest....

GEITje FAQs: Waarom de naam "GEITje"?

De tweede van een serie posts over vragen die ik over GEITje krijg. “Waarom de naam GEITje?” Muppets, koeien en zeerobben De naam “GEITje” zat eigenlijk al veel langer in mijn hoofd als naam voor een Nederlandstalig groot taalmodel. Naamgeving in de wereld van de taalmodellen is onderhevig aan interessante trends. In 2017 begon de Muppet-generatie van taalmodellen met Allen Institute for AI’s ELMo, gevolgd door Googles doorbraak BERT. Uiteraard lieten ERNIE, Grover en BigBIRD niet lang op zich wachten....

GEITje FAQs: Waarom ik GEITje heb gemaakt

De eerste van een serie posts over vragen die ik over GEITje krijg. “Waarom heb je een taalmodel gemaakt?” Die vraag heb ik de afgelopen weken meermaals gekregen. Meestal meteen gevolgd door een vervolgvraag: “ChatGPT bestaat toch al?” Geen gekke vraag, eigenlijk. Hieronder mijn drie belangrijkste redenen: 1. Omdat open modellen nodig zijn ChatGPT doet het geweldig in het Nederlands. Als je een toepassing hebt waar je een LLM voor wilt proberen, pak vooral ChatGPT of één van de OpenAI APIs....

GEITje 7B: een groot open Nederlands taalmodel

Het is nu meer dan twee weken geleden dat ik GEITje 7B heb ge-opensourced. Het was een spannend moment, zeker omdat dit mijn eerste grote open source bijdrage is. Maar ik vind het heel leuk om te zien hoe enthousiast alle reacties zijn geweest! GEITje is een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het is (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen....

De boot gemist: waarom het Nederlands ontbreekt in het belangrijkste open Europese taalmodel

Drie vrijwilligers. Een paar weken aan werk. Dat is wat er nodig was om een taal op te nemen in BigScience BLOOM, het open meertalige taalmodel met maar liefst 176 miljard parameters dat halverwege 2022 uitkwam. Het moest een open, meertalig alternatief voor GPT-3 worden. Uiteindelijk zijn er 46 talen van over de hele wereld beland in de dataset waarmee BLOOM getrained is. Ook relatief kleine talen als het Baskisch en het Catalaans kregen het voor elkaar om opgenomen te worden....

Mijn praatje op EuroPython 2023: "Threat to Life — Preventing Planned Murders with Python"

Ik kan niet vaak publiekelijk iets uit de doeken doen over het soort zaken dat we bij het Nederlands Forensisch Instituut doen met behulp van AI, maar op de afgelopen EuroPython 2023 in Praag heb ik namens het NFI iets kunnen vertellen over een zaak die een paar jaar terug speelde en waar het NFI al eerder een persbericht over uitstuurde: het Threat-to-Life-project. Politie kon live meelezen met criminelen Het was de politie in 2020 gelukt om live mee te kunnen lezen bij een aanbieder van zogenaamde cryptotelefoons: gemodificeerde telefoons die — tegen een flinke betaling — gebruikt werden om versleuteld te communiceren in het criminele circuit....