Het is nu meer dan twee weken geleden dat ik GEITje 7B heb ge-opensourced. Het was een spannend moment, zeker omdat dit mijn eerste grote open source bijdrage is. Maar ik vind het heel leuk om te zien hoe enthousiast alle reacties zijn geweest!

GEITje is een Nederlandstalig groot open taalmodel met 7 miljard parameters, gebaseerd op Mistral 7B. Het is (verder) getraind op 10 miljard tokens aan Nederlandstalige tekst. Daardoor heeft het beter Nederlands geleerd, en meer kennis over Nederlandse onderwerpen.

Er zijn al allerlei mensen mee aan de slag gegaan voor hun toepassingen, waarvan we hopelijk binnenkort de eerste resultaten gaan zien. Bram VanRoy heeft hem toegevoegd aan het Open Dutch LLM Evaluation Leaderboard, en ook meteen opgenomen in zijn nieuwste paper: Language Resources for Dutch Large Language Modelling. Dank daarvoor!

De belangrijkste links op een rijtje:

FAQs

Een (nog lopende) serie blogposts over veelgestelde vragen over GEITje: