Genomineerd voor de Nederlandse Privacy Awards: TNO i.s.m. NFI & SURF

Op 28 januari aanstaande worden tijdens de Nationale Privacy Conferentie van ECP en Privacy First de jaarlijkse Nederlandse Privacy Awards uitgereikt. Deze Awards bieden een podium aan organisaties die privacy zien als een kans om zich positief te onderscheiden en die laten zien hoe je privacyvriendelijk kunt ondernemen en innoveren.

Redactie PONT | Data & Privacy 16 December 2025

Interview

Wat doet uw product/dienst/project precies en welk privacyprobleem lost het op?

Letterlijk “Privacy First”

Het GPT-NL model is het eerste Large Language Model (LLM) dat een radicaal andere aanpak hanteert ten aanzien van privacy en gegevensbescherming en is daarmee de eerste LLM die aantoonbaar voldoet aan de AVG. Big Tech beweert dat het trainen van een LLM niet mogelijk is zonder content van het internet te scrapen (dit zonder wetenschap of toestemming van betrokkenen of rechthebbenden) en laat persoonsgegevens in de trainingscontent zitten (verwijdert hoogstens op statische manier beperkte categorieën persoonsgegevens), om pas later safeguards (filters) te plaatsen voor ongewenste content over personen in de output van hun LLMs. Gevolg is dat persoonsgegevens uit het model kunnen lekken (bijvoorbeeld via extraction attacks, model inversion attacks, of membership inference attacks) en output veelal onjuiste informatie over personen bevat. Deze LLMs voldoen op geen enkele wijze aan de privacy richtsnoeren voor trainen van LLMs van de EDPB en de Franse toezichthouder (CNIL).

Gedachte kan zijn dat LLMs die zijn getraind op openbaar op het internet beschikbare gegevens, privacy problemen verminderen. Openbaar toegankelijk betekent echter nog niet dat die persoonsgegevens ook tot het publieke domein behoren. Ook op social media gedeelde gegevens worden meestal gedeeld in een bepaalde context. Het GPT-NL model is het eerste model dat dit issue ondervangt door het model te trainen op gegevens die zijn bedoeld voor het publiek domein. Dit is ook de aanbeveling van wetenschappers, zie bijvoorbeeld “What Does it Mean for a Language Model to Preserve Privacy?”

Het GPT-NL model is verder het eerste model dat de beginselen van data minimalisatie en privacy-by-design centraal stelt aan de bron. De innovatie zit hierbij niet alleen in innovaties in de toegepaste anonymiseringstechnologieën (die substantieel zijn), maar in het totale ontwerp van het GPT-NL ecosysteem waarbij privacybescherming centraal staat.

Kortom: geen ongerichte scraping van het Internet, volledige transparantie van alle databronnen, en een radicaal nieuwe vorm van contextuele anonimisering voordat de training van het LLM begint.

Wat was de aanleiding om dit te ontwikkelen?

De aanleiding voor het GPT-NL project was het groeiende ongemak over onze afhankelijkheid van big tech en buitenlandse LLMs. De Nederlandse overheid heeft een subsidie toegekend aan TNO om in het nationaal belang een soeverein Nederlandstalig groot taalmodel te trainen dat volledig voldoet aan Europese en Nederlandse regels en publieke waarden. Het Nederlands is een relatief klein taalgebied en daarmee geen prioriteit voor buitenlandse aanbieders. Doordat het GPT-NL model wordt getraind op originele Nederlandstalige teksten van hoge kwaliteit, kunnen de finesses van de Nederlandse taal beter worden geborgd.

Welke impact heeft uw inzending tot nu toe gemaakt?

Ondanks dat de eerste werkende versie van het GPT-NL model nog niet is afgerond (vanaf februari 2026 is de eerste release klaar voor selecte groep launching customers), heeft het GPT-NL project al een grote impact gemaakt. Nederland is het eerste land dat erin is geslaagd een samenwerking aan te gaan met de gezamenlijke uitgevers (zoals NDP Nieuwsmedia, zie hier) voor het gebruik van hun gezamenlijke content voor het trainen van GPT-NL. Met name de overeenkomst met de uitgeversorganisatie NDP heeft zowel in binnen- en buitenland veel aandacht gekregen, omdat GPT-NL hiermee wereldwijd de eerste LLM partij is die op grote schaal samenwerkt met uitgevers en hen laat meedelen in de voordelen die via GPT-NL worden gerealiseerd.

Deze media-aandacht heeft er vervolgens voor gezorgd dat nog weer meer partijen content willen bijdragen aan het GPT-NL project. Hierbij speelde ook het nieuws over de nominatie voor de Nederlandse Privacy Awards ook een rol! Na dit nieuws zagen we meteen een nieuwe groep partijen interesse uiten om met hun content bij te dragen aan het GPT-NL project. Ook hebben meerdere mogelijke afnemers laten weten dat deze nominatie nog verder onderstreept dat GPT-NL een goede keuze is als men op zoek is naar een compliant LLM.

Welke privacy-uitdagingen bent u tegengekomen en wat heeft uw team daarvan geleerd?

Niet-publieke personen. Uitgangspunt is dat voor een goede werking van het GPT-NL model niet nodig is dat deze vragen kan beantwoorden over niet-publieke personen. Tijdens het project bleek al snel dat de EDPB richtsnoeren voor AI modellen in het geheel niet bruikbaar waren. Deze geven standaard anonimiseringsoplossingen, waarmee bepaalde gegevens worden verwijderd of gerandomiseerd niet werken voor het anonimiseren van content voor LLM training, omdat daardoor de context en zinstructuur verloren gaat, waardoor de LLM niet goed kan “leren”. In plaats van de persoonsgegevens dan maar in de trainingscontent te laten zitten (zoals bij andere LLMs), heeft TNO contextuele anonimisering doorgevoerd, waarmee zinstructuren behouden blijven en de LLM kan leren. Daarmee is derhalve gekozen voor materiële bescherming van betrokkenen in plaats van toekenning van procedurele rechten, zoals het bieden aan hun gebruikers van een opt-out voor gebruik van user-content, zoals Big Tech dit hanteert voor gebruik van gebruikerscontent voor training van hun LLMs.
Publieke personen: voor een goede werking van het GPT-NL model is wel nodig dat deze vragen kan beantwoorden over publieke personen. Als alle informatie over publieke personen zou worden uitgefilterd, zou dit betekenen dat het GPT-NL model geen vragen meer kan beantwoorden zoals “Wie is de koning van Nederland”. Deze informatie kan ook kan speciale categorieën gegevens bevatten – politieke voorkeur, gezondheid, religie. Bijvoorbeeld dat de Paus katholiek is of Mark Rutte lid van de VVD. TNO hanteert daarbij een zeer strikte definitie van “publiek persoon”. Daaronder worden alleen personen onder geschaard die hun eigen Wikipedia-pagina hebben. Om ook de privacy van publieke personen te borgen worden alle gegevens die geen relevantie hebben voor hun publieke rol verwijderd, daaronder begrepen alle gevoelige en/of irrelevante persoonsgegevens verwijderd, zoals contactgegevens of bankrekeningnummer (als deze al aanwezig was).

Hier liepen we aan tegen de door de EDPB en ander privacy toezichthouders zoals CNIL en de AP uitgevaardigde richtsnoeren die vergen dat alle bijzondere persoonsgegevens uit de training content worden verwijderd. Via publicaties (zie de IAPP artikelen hier, hier, hier, en hier) en panelgesprekken met toezichthouders op IAPP Brussel 2025 hebben we de toezichthouders op andere gedachten weten te brengen en deze hebben inmiddels hun richtsnoeren hierop aangepast. Zie specifiek de richtsnoeren van de CNIL, waarin zij aangeeft: “For example: a large language model is fed with a large number of public sources and correctly informs users about the functions of certain public figures. A public figure asks to be erased from the model. Retraining the model has a very high cost. The request for erasure can in principle be rejected.”.

Ook hier geldt dat dit een wezenlijke andere benadering is dan de bestaande LLMs, die zich beperken tot het filteren van outputs van hun model met betrekking tot niet-publieke personen, en daarbij een zeer ruime definitie van “publiek persoon” hanteren. Hierdoor bevatten LLM-outputs persoonsgegevens van een ruime groep personen, inclusief personen die geen uitgebreide rol in het publieke leven hebben.

Wat zijn de toekomstplannen en hoe wilt u de impact verder vergroten?

GPT-NL gelooft in de mogelijkheid van een eerlijke waardeketen van data, de belangrijkste grondstof van LLMs, waarin auteursrechthebbenden gecompenseerd worden voor de bijdrage van hun data. Er is daarom gekozen voor een licentiemodel waarbij een deel van de licentie-inkomsten terugvloeit naar contentleveranciers, terwijl het restant wordt geïnvesteerd in de instandhouding van het GPT-NL model. Daarnaast is een governance model opgezet (zie hier de Governance Charter van het GPT-NL project). Hiermee is voorzien in een toekomstbestendige governance, zodat de verdere ontwikkeling van Nederlandse AI-modellen binnen het GPT-NL project blijvend wordt gewaarborgd.

De verdere toekomstplannen om de impact van GPT-NL te vergroten zijn:

Uitbreiding van GPT-NL naar andere Europese talen, maar ook talen gesproken door grote minderheidsgroepen in Europa, om bredere toepasbaarheid te realiseren.
Toevoegen van meerdere modaliteiten, waaronder spraak, zodat het model ook ingezet kan worden bij uiteenlopende text-to-speech toepassingen zoals automatisch notuleren in gevoelige of bedrijfskritische contexten.
Verdere optimalisatie van het model en integratie in publieke en zakelijke toepassingen.
Actieve bijdrage aan Europese AI-soevereiniteit door samenwerking met mediapartners en overheden.