Het einde van GEITje 1

Op dringend verzoek van Stichting BREIN is GEITje vanaf heden niet meer beschikbaar. Alle model files zijn verwijderd uit mijn HuggingFace repos¹.

GEITje was een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het was (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen.

Zoals vermeld in de README is GEITje eind 2023 onder meer getraind op gedeeltes van het Nederlandse Gigacorpus. Stichting Brein stelt dat sommige van die subsets van het Gigacorpus auteursrechtelijk beschermd materiaal bevatten uit illegale bron. Zij hebben daarom in augustus 2024 het gehele Gigacorpus offline laten halen.

Brein heeft mij laten weten dat, naar hun mening, volgens geldende wet- en regelgeving het model GEITje daarom ook offline gehaald moet worden. Ik ben door auteursrechten-experts ervan verzekerd dat dit niet zo zwart/wit is als gesteld. Maar zij vertellen me ook dat er nog veel juridische vragen in Europa hierover onbeantwoord zijn. Ik kan het me niet veroorloven om een lange en vooral zeer dure rechtszaak te voeren om die vragen wel beantwoord te krijgen. GEITje is immers een niet-commercieel, wetenschappelijk hobbyproject. Daarom voldoe ik aan het verzoek van Brein.

Sinds de release van GEITje zijn er ook wetenschappelijke artikelen geschreven waarin GEITje wordt gebruikt om onderzoek te doen naar Large Language Models in het Nederlands. Ik had gewild dat GEITje voor wetenschappers beschikbaar bleef om de wetenschappelijke reproduceerbaarheid van hun onderzoek te kunnen garanderen. Maar helaas: gesprekken daarover met Brein zijn op niets uitgelopen.

Ik ben blij met de vele positieve reacties die ik het afgelopen jaar heb mogen ontvangen. Het was ook erg mooi om te zien hoe GEITje het afgelopen jaar velen heeft weten te inspireren. GEITje heeft laten zien dat er een alternatief van Nederlandse en Vlaamse bodem kan bestaan voor de gesloten taalmodellen van buitenlandse techgiganten. GEITje is inmiddels niet meer alleen: er bestaan nu open Nederlandstalige LLMs in vele vormen en smaken, getraind op allerlei verschillende bronnen.

Wat mij betreft ligt de toekomst van Europese AI nog steeds in open source AI. Alleen als een AI vrij te gebruiken is, door iedereen bestudeerd kan worden en voor elk doel vrij te modificeren en delen is, dán pas kunnen we spreken over soevereine AI. De Franse en Spaanse overheden gingen ons daarin al voor en trainden volledig open source modellen met overheidsgeld. Een weg naar een écht open source Nederlandstalig AI-landschap ligt nog altijd voor ons open.

Aanvulling 27 januari 2025: Brein heeft inmiddels een persbericht online gezet.

Verwijderd zijn alle .safetensors files (de gewichten van het model) van GEITje-7B en alle door mij getrainde afgeleide chatmodellen, inclusief die van alle tussentijdse training checkpoints. Ook de optimizer.pt-bestanden van de checkpoints zijn verwijderd. Daarnaast zijn door alle door mij gemaakte conversies van de modellen (zoals .gguf files) ook verwijderd. ↩︎