De tweede van een serie posts over vragen die ik over GEITje krijg.
“Waarom de naam GEITje?”
Muppets, koeien en zeerobben
De naam “GEITje” zat eigenlijk al veel langer in mijn hoofd als naam voor een Nederlandstalig groot taalmodel.
Naamgeving in de wereld van de taalmodellen is onderhevig aan interessante trends. In 2017 begon de Muppet-generatie van taalmodellen met Allen Institute for AI’s ELMo, gevolgd door Googles doorbraak BERT. Uiteraard lieten ERNIE, Grover en BigBIRD niet lang op zich wachten. Ze werden opgevolgd door Facebooks verbeterde variant van BERT: RoBERTa.
Welke naam moet je aan de Nederlandstalige varianten van deze taalmodellen geven? Wietse de Vries et al. kozen voor hun Nederlandstalige BERT-model simpelweg voor “BERTje”. Simpel, maar doeltreffend: de “-je”-uitgang is meteen herkenbaar als Nederlands, en het voegt een element van schattigheid toe. Het bijbehorende logo, een oer-Hollandse koe, is ook een schot in de roos.
Pieter Delobelle et al. kozen voor een andere strategie bij hun Nederlandstalige variant van RoBERTa.
Zij hebben hun model zichzelf een naam laten geven, door het model het masker in <mask>BERT
te laten voorspellen.
Daar kwam de typisch Nederlandse naam RobBERT uit.
Met bijbehorend schattig logo van een zeerob verkleed als Bert uit Sesamstraat, uiteraard.
Lama’s en andere kameelachtigen
Na de komst van ChatGPT eind 2022 (zonder schattig logo, helaas) kwamen de open source alternatieven snel op gang. Meta gaf het startschot met LLaMA (geen logo), gevolgd door een serie finetunes die van LLaMA een chatbot maakten: met onder andere Stanford Alpaca (fancy alpaca met zonnebril) en Vicuña (abstract logo door Stable Diffusion 2.1).
Helaas heeft de lama niet zo’n heel uitgebreide familie. Na de alpaca en vicuña heb je nog de Guanaco, maar daarna zijn de lamini wel op. Namen van overige kameelachtigen zijn verder nooit echt aangeslagen.
Valken en verre windstreken
Het dierenthema bleef nog even hangen. Eventjes was het model du jour Falcon, van het Technology Innovation Institute (zeg maar de TNO van Abu Dhabi). Logo: een polygoon-tekening van een valk.
Het volgende open source model dat een plek in de zeitgeist veroverde was Mistral 7B, gemaakt door de ietwat mysterieuze Franse startup Mistral AI. Model en bedrijf zijn vernoemd niet naar een dier, maar naar de mistral: de krachtige noordelijke wind in Oost-Frankrijk. Bijbehorend logo heeft niets met een wind te maken, maar heeft wel flinke jaren negentig-WordArt-vibes.
Een groot Nederlands taalmodel gebaseerd op Mistral
Dus: zeg het maar. Je traint een Nederlandstalig taalmodel, dat je baseert op Mistral 7B. Hoe ga je het noemen?
Ik heb nog even overwogen om een variant op Mistral te gebruiken. In Nederland hebben we immers ook wel iets met wind. Maar op één of andere manier bekten de modellen Westenwind 7B en Noordwester 7B toch niet zo goed.
Dan maar terug naar het dierenthema. Een geit, een dier dat je op elke kinderboerderij zult vinden. Een dier dat gulzig alles opvreet wat je hem voert, en daarna hard begint te blaten. Wat is er toepasselijker voor een taalmodel? Een geitje, want 7 miljard is helemaal niet zo groot als sommige andere modellen. En het past mooi bij BERTje.
GEITje dus. Met schattig logo, bedacht door ChatGPT.
En die hoofdletters dan? Goede vraag. Als je echt wil kan je vast wel een zin bedenken waar de letters G, E, I en T opeenvolgend in voorkomen. GEneratIeve Transformer is de beste die ik tot nu toe heb kunnen verzinnen, maar kan je zelf vast beter.