Op 28 januari aanstaande worden tijdens de Nationale Privacy Conferentie van ECP en Privacy First de jaarlijkse Nederlandse Privacy Awards uitgereikt. Deze Awards bieden een podium aan organisaties die privacy zien als een kans om zich positief te onderscheiden en die laten zien hoe je privacyvriendelijk kunt ondernemen en innoveren.

Letterlijk “Privacy First”
Het GPT-NL model is het eerste Large Language Model (LLM) dat een radicaal andere aanpak hanteert ten aanzien van privacy en gegevensbescherming en is daarmee de eerste LLM die aantoonbaar voldoet aan de AVG. Big Tech beweert dat het trainen van een LLM niet mogelijk is zonder content van het internet te scrapen (dit zonder wetenschap of toestemming van betrokkenen of rechthebbenden) en laat persoonsgegevens in de trainingscontent zitten (verwijdert hoogstens op statische manier beperkte categorieën persoonsgegevens), om pas later safeguards (filters) te plaatsen voor ongewenste content over personen in de output van hun LLMs. Gevolg is dat persoonsgegevens uit het model kunnen lekken (bijvoorbeeld via extraction attacks, model inversion attacks, of membership inference attacks) en output veelal onjuiste informatie over personen bevat. Deze LLMs voldoen op geen enkele wijze aan de privacy richtsnoeren voor trainen van LLMs van de EDPB en de Franse toezichthouder (CNIL).
Gedachte kan zijn dat LLMs die zijn getraind op openbaar op het internet beschikbare gegevens, privacy problemen verminderen. Openbaar toegankelijk betekent echter nog niet dat die persoonsgegevens ook tot het publieke domein behoren. Ook op social media gedeelde gegevens worden meestal gedeeld in een bepaalde context. Het GPT-NL model is het eerste model dat dit issue ondervangt door het model te trainen op gegevens die zijn bedoeld voor het publiek domein. Dit is ook de aanbeveling van wetenschappers, zie bijvoorbeeld “What Does it Mean for a Language Model to Preserve Privacy?”
Het GPT-NL model is verder het eerste model dat de beginselen van data minimalisatie en privacy-by-design centraal stelt aan de bron. De innovatie zit hierbij niet alleen in innovaties in de toegepaste anonymiseringstechnologieën (die substantieel zijn), maar in het totale ontwerp van het GPT-NL ecosysteem waarbij privacybescherming centraal staat.
Kortom: geen ongerichte scraping van het Internet, volledige transparantie van alle databronnen, en een radicaal nieuwe vorm van contextuele anonimisering voordat de training van het LLM begint.
De aanleiding voor het GPT-NL project was het groeiende ongemak over onze afhankelijkheid van big tech en buitenlandse LLMs. De Nederlandse overheid heeft een subsidie toegekend aan TNO om in het nationaal belang een soeverein Nederlandstalig groot taalmodel te trainen dat volledig voldoet aan Europese en Nederlandse regels en publieke waarden. Het Nederlands is een relatief klein taalgebied en daarmee geen prioriteit voor buitenlandse aanbieders. Doordat het GPT-NL model wordt getraind op originele Nederlandstalige teksten van hoge kwaliteit, kunnen de finesses van de Nederlandse taal beter worden geborgd.
Ondanks dat de eerste werkende versie van het GPT-NL model nog niet is afgerond (vanaf februari 2026 is de eerste release klaar voor selecte groep launching customers), heeft het GPT-NL project al een grote impact gemaakt. Nederland is het eerste land dat erin is geslaagd een samenwerking aan te gaan met de gezamenlijke uitgevers (zoals NDP Nieuwsmedia, zie hier) voor het gebruik van hun gezamenlijke content voor het trainen van GPT-NL. Met name de overeenkomst met de uitgeversorganisatie NDP heeft zowel in binnen- en buitenland veel aandacht gekregen, omdat GPT-NL hiermee wereldwijd de eerste LLM partij is die op grote schaal samenwerkt met uitgevers en hen laat meedelen in de voordelen die via GPT-NL worden gerealiseerd.
Deze media-aandacht heeft er vervolgens voor gezorgd dat nog weer meer partijen content willen bijdragen aan het GPT-NL project. Hierbij speelde ook het nieuws over de nominatie voor de Nederlandse Privacy Awards ook een rol! Na dit nieuws zagen we meteen een nieuwe groep partijen interesse uiten om met hun content bij te dragen aan het GPT-NL project. Ook hebben meerdere mogelijke afnemers laten weten dat deze nominatie nog verder onderstreept dat GPT-NL een goede keuze is als men op zoek is naar een compliant LLM.
Hier liepen we aan tegen de door de EDPB en ander privacy toezichthouders zoals CNIL en de AP uitgevaardigde richtsnoeren die vergen dat alle bijzondere persoonsgegevens uit de training content worden verwijderd. Via publicaties (zie de IAPP artikelen hier, hier, hier, en hier) en panelgesprekken met toezichthouders op IAPP Brussel 2025 hebben we de toezichthouders op andere gedachten weten te brengen en deze hebben inmiddels hun richtsnoeren hierop aangepast. Zie specifiek de richtsnoeren van de CNIL, waarin zij aangeeft: “For example: a large language model is fed with a large number of public sources and correctly informs users about the functions of certain public figures. A public figure asks to be erased from the model. Retraining the model has a very high cost. The request for erasure can in principle be rejected.”.
Ook hier geldt dat dit een wezenlijke andere benadering is dan de bestaande LLMs, die zich beperken tot het filteren van outputs van hun model met betrekking tot niet-publieke personen, en daarbij een zeer ruime definitie van “publiek persoon” hanteren. Hierdoor bevatten LLM-outputs persoonsgegevens van een ruime groep personen, inclusief personen die geen uitgebreide rol in het publieke leven hebben.
GPT-NL gelooft in de mogelijkheid van een eerlijke waardeketen van data, de belangrijkste grondstof van LLMs, waarin auteursrechthebbenden gecompenseerd worden voor de bijdrage van hun data. Er is daarom gekozen voor een licentiemodel waarbij een deel van de licentie-inkomsten terugvloeit naar contentleveranciers, terwijl het restant wordt geïnvesteerd in de instandhouding van het GPT-NL model. Daarnaast is een governance model opgezet (zie hier de Governance Charter van het GPT-NL project). Hiermee is voorzien in een toekomstbestendige governance, zodat de verdere ontwikkeling van Nederlandse AI-modellen binnen het GPT-NL project blijvend wordt gewaarborgd.
De verdere toekomstplannen om de impact van GPT-NL te vergroten zijn:
