Interview in de Poki-podcast: "Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg"

Deze week had ik de eer om te gast te zijn in de podcast van Alexander Klöpping en Wietse Hage: Poki – de Podcast over Kunstmatige Intelligentie. We hadden een goed gesprek over GEITje, het finetunen van Large Language models in het algemeen en voor het Nederlands in het bijzonder. We hebben ongeveer een half uur gesproken, en het gesprek is bijna integraal in de podcast beland. Inclusief wat nu wel een klassieker moet worden: de Bassietest....

17 januari 2024 · 1 min · Edwin Rijgersberg

GEITje FAQs: Waarom de naam "GEITje"?

De tweede van een serie posts over vragen die ik over GEITje krijg. “Waarom de naam GEITje?” Muppets, koeien en zeerobben De naam “GEITje” zat eigenlijk al veel langer in mijn hoofd als naam voor een Nederlandstalig groot taalmodel. Naamgeving in de wereld van de taalmodellen is onderhevig aan interessante trends. In 2017 begon de Muppet-generatie van taalmodellen met Allen Institute for AI’s ELMo, gevolgd door Googles doorbraak BERT. Uiteraard lieten ERNIE, Grover en BigBIRD niet lang op zich wachten....

3 januari 2024 · 3 min · Edwin Rijgersberg

GEITje FAQs: Waarom ik GEITje heb gemaakt

De eerste van een serie posts over vragen die ik over GEITje krijg. “Waarom heb je een taalmodel gemaakt?” Die vraag heb ik de afgelopen weken meermaals gekregen. Meestal meteen gevolgd door een vervolgvraag: “ChatGPT bestaat toch al?” Geen gekke vraag, eigenlijk. Hieronder mijn drie belangrijkste redenen: 1. Omdat open modellen nodig zijn ChatGPT doet het geweldig in het Nederlands. Als je een toepassing hebt waar je een LLM voor wilt proberen, pak vooral ChatGPT of één van de OpenAI APIs....

2 januari 2024 · 6 min · Edwin Rijgersberg

GEITje 7B: een groot open Nederlands taalmodel

Het is nu meer dan twee weken geleden dat ik GEITje 7B heb ge-opensourced. Het was een spannend moment, zeker omdat dit mijn eerste grote open source bijdrage is. Maar ik vind het heel leuk om te zien hoe enthousiast alle reacties zijn geweest! GEITje is een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het is (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen....

2 januari 2024 · 2 min · Edwin Rijgersberg