Het is nu meer dan twee weken geleden dat ik GEITje 7B heb ge-opensourced. Het was een spannend moment, zeker omdat dit mijn eerste grote open source bijdrage is. Maar ik vind het heel leuk om te zien hoe enthousiast alle reacties zijn geweest!
GEITje is een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het is (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen.
Er zijn al allerlei mensen mee aan de slag gegaan voor hun toepassingen, waarvan we hopelijk binnenkort de eerste resultaten gaan zien. Bram VanRoy heeft hem toegevoegd aan het Open Dutch LLM Evaluation Leaderboard, en ook meteen opgenomen in zijn nieuwste paper: Language Resources for Dutch Large Language Modelling. Dank daarvoor!
Links
De belangrijkste links op een rijtje:
- GEITje op GitHub: Uitgebreide README over het model, en de broncode natuurlijk.
- π€ Hugging Face Models voor directe toegang tot de modellen:
- Chat met GEITje 7B chat v2 in π€ Hugging Face Spaces (dank aan Hugging Face voor de community GPU grant!)
- Overzicht op π€ Hugging Face Collections met alle modellen, gekwantiseerde varianten en de datasets.
FAQs
Een (nog lopende) serie blogposts over veelgestelde vragen over GEITje: