Zijn trainingsgegevens van ChatGPT verenigbaar zijn met het recht op gegevenswissing in de zin van artikel 17 AVG? Jorie Corten, paralegal bij Watsonlaw en masterstudent International Technology Law, duikt in dit vraagstuk. Het recht op gegevenswissing is waarschijnlijk ook van toepassing op de trainsingsdata van ChatGPT, concludeert zij. In de praktijk is dit wel ingewikkeld: “Hoewel het technisch mogelijk is om persoonsgegevens van een betrokkene uit ChatGPT te wissen, heeft dit weinig invloed op de patronen die het model al heeft geleerd.”
Kunstmatige intelligentie heeft een revolutie teweeggebracht in de manier waarop we met technologie omgaan, en een van de meest recente en indrukwekkende voorbeelden hiervan is ChatGPT.[1] Dit model kan mensachtige tekst genereren, waardoor het nuttig is voor een breed scala aan toepassingen, van chatbots voor klantenservice tot het creëren van content.
Vanwege de brede toepasbaarheid en snelle opkomst heeft ChatGPT echter voor veel juridische onzekerheden gezorgd. Dit onderzoek richt zich op de Algemene verordening gegevensbescherming (AVG).[2]
ChatGPT is een Large Generative Artificial Intelligence Model (LGAIM), een technologie die wordt ontwikkeld met behulp van een grote hoeveelheid gegevens.[3] De training van ChatGPT werd uitgevoerd in twee fasen: i) trainingsgegevens, en ii) menselijke inputgegevens.[4]
Trainingsgegevens
ChatGPT werd getraind met behulp van een dataset van meer dan 45 terabytes aan tekst van het internet, waaronder boeken, papers, webpagina's en andere op tekst gebaseerde inhoud.[5] De output kan vertekend en onnauwkeurig zijn vanwege de probabilistische antwoorden en de onvolmaakte kwaliteit van de trainingsgegevens (teksten van het internet).[6]
Menselijke inputgegevens
Na te zijn getraind met tekst van het internet, is ChatGPT verfijnd met menselijke input. Bijvoorbeeld, prompts zoals "schrijf een onderzoeksartikel over de compatibiliteit van ChatGPT met het recht op gegevenswissing" of gebruikers die feedback geven door op een ‘duim omhoog’-knop te klikken, helpen ChatGPT zichzelf te trainen.[7]
De datasets die worden gebruikt om ChatGPT te trainen, zijn doorgaans bronnen van een breed scala aan teksten die beschikbaar zijn op internet, die persoonsgegevens bevatten.[8] Ik vroeg ChatGPT of het deze persoonsgegevens uit zijn dataset heeft uitgesloten in zijn trainingsproces.
ChatGPT antwoordde dat "(...) ChatGPT zelf geen persoonsgegevens uit zijn dataset heeft uitgesloten tijdens de training, (...)." Dit artikel gaat er daarom vanuit dat de trainingsgegevens van ChatGPT persoonsgegevens omvatten in de zin van artikel 4, lid 1, AVG.
De AVG biedt een wettelijk kader voor gegevensbescherming en is van toepassing "op de verwerking van persoonsgegevens (...)".[9] De rechten inzake gegevensbescherming, zoals het recht op gegevenswissing, zijn alleen van toepassing wanneer persoonsgegevens worden verwerkt.[10]
Het recht op wissen
Het recht op gegevenswissing is een essentieel onlinerecht van betrokkenen.[11] Een betrokkene is een natuurlijke persoon die wordt geïdentificeerd of identificeerbaar is via persoonsgegevens.[12] Volgens artikel 17, lid 1, AVG hebben betrokkenen “het recht van de verwerkingsverantwoordelijke wissing van de hem betreffende persoonsgegevens te verkrijgen (...)". Dit recht op gegevenswissing is ontstaan in het baanbrekende arrest Google Spain van het Hof van Justitie van de Europese Unie (hierna: HvJEU).[13]
Het HvJEU oordeelde dat moet worden gezocht naar "een juist evenwicht" tussen de rechten van betrokkenen op gegevensbescherming en de legitieme belangen van zoekmachines.[14] Het HvJEU vervolgt dat deze rechten van betrokkenen "in beginsel voorrang [krijgen] niet enkel op het economische belang van de exploitant van de zoekmachine, maar ook op het belang van dit publiek om toegang tot deze informatie te krijgen wanneer op de naam van deze persoon wordt gezocht".[15]
Maar wanneer de inmenging wordt gerechtvaardigd door het belang van het algemene publiek bij toegang tot de informatie in kwestie, dan mogen de rechten van de betrokkene niet prevaleren.[16] De AVG codificeerde Google Spain en werkte het recht op gegevenswissing verder uit.[17]
ChatGPT is een LGAIM en geen internetzoekmachine. ChatGPT wordt echter algemeen gebruikt als zoekmachine en is getraind op gegevens die internetzoekmachines aan het grote publiek verstrekken. Ik zou daarom willen stellen dat dezelfde regels van toepassing zijn.
Persoonsgegevens van het getrainde model van ChatGPT kunnen op twee verschillende manieren worden gewist: (i) het hertrainen van de dataset, of (ii) machine unlearning.
De dataset hertrainen
Op basis van een gewijzigde trainingsdataset kan het ChatGPT-model worden hertraind.[18] Een aanzienlijk nadeel is dat het (her)trainen van de dataset zeer intensief is, waardoor het duur en tijdrovend is.[19]
Machine unlearning
Een andere optie is om het model zelf aan te passen nadat het getraind is ("machine unlearning").[20] Dit is echter erg ingewikkeld en bijna nooit haalbaar met bestaande systemen.[21] Technieken voor machine unlearning worden nu pas gepresenteerd en zijn nog onvoldoende onderzocht.[22]
Wanneer persoonsgegevens van één betrokkene uit de trainingsgegevens worden gewist, heeft dit meestal weinig invloed op de patronen die het model al heeft geleerd.[23] Wanneer er grotere getalen aan persoonsgegevens uit de trainingsgegevens worden gewist kan dit meer invloed hebben op de patronen van het model. Daardoor wordt het recht op gegevenswissing met name interessant bij een collectieve actie.[24]
Het eerste dilemma is dat op basis van Google Spain het belang van het algemene publiek om toegang te hebben tot de informatie in kwestie kan prevaleren boven het recht op gegevenswissing.[25]
De Artikel 29 Werkgroep, een onafhankelijk Europees adviesorgaan op het gebied van gegevensbescherming en privacy, verklaarde dat "internetgebruikers er belang bij hebben om informatie te ontvangen via zoekmachines".[26] In dit verband moet het grondrecht op vrijheid van meningsuiting, zoals gedefinieerd in artikel 11 van het Europees Handvest, in overweging worden genomen.[27]
Een tweede dilemma ontstaat doordat de server van ChatGPT in de Verenigde Staten (VS) is gevestigd maar het model wordt getraind op gegevens van over de hele wereld.[28] Het HvJEU oordeelde in zijn baanbrekende zaak Google v. CNIL dat zoekmachines persoonsgegevens alleen in de EU moeten wissen.[29] Het HvJEU vervolgde echter dat het EU-recht het wissen van persoonsgegevens van alle servers niet verbiedt.[30]
Dit roept de kernvragen van dit artikel op: (i) Is het belang van het algemene publiek met betrekking tot de trainingsgegevens van ChatGPT minder groot dan het recht van betrokkenen op gegevenswissing, zodat de redenering van het HvJEU in Google Spain voor ChatGPT terzijde kan worden geschoven?
En vervolgens: (ii) moeten deze gegevens worden gewist van de server van ChatGPT in de VS, van het model dat toegankelijk is in Europa, of alleen van het model dat toegankelijk is in het land van de aanvrager?
Uit dit artikel is gebleken dat de trainingsgegevens van ChatGPT waarschijnlijk persoonsgegevens in de zin van artikel 4, lid 1, AVG omvatten en derhalve het recht op gegevenswissing van toepassing is.
Hoewel het technisch mogelijk is om persoonsgegevens van een betrokkene uit ChatGPT te wissen, heeft dit weinig invloed op de patronen die het model al heeft geleerd. Daarom is het onduidelijk of de trainingsgegevens van ChatGPT volledig verenigbaar zijn met het recht op gegevenswissing op grond van artikel 17 AVG.
Verder onderzoek is nodig om hierover duidelijkheid te verschaffen. In de tussentijd is een mogelijke oplossing voor deze kwestie dat betrokkenen een collectieve actie starten.
Bronnen
1. Hacker, P., Engel, A., & Mauer, M. (2023). Regulating chatgpt and other large generative ai models. arXiv preprint arXiv:2302.02337, p. 2-3. (Hierna: Hacker et al (2023)); Hacker, P. (2023). Understanding and regulating ChatGPT, and other large generative AI models. Verfassungsblog: On Matters Constitutional, p 2. (Hierna: Hacker (2023)).
2. Verordening (EU) 2016/679 van het Europees Parlement en de Raad van 27 april 2016, betreffende de bescherming van natuurlijke personen in verband met de verwerking van persoonsgegevens en betreffende het vrije verkeer van die gegevens en tot intrekking van Richtlijn 95/46/EG (algemene verorderning gegevensbescherming).
3. Hacker et al (2023), p. 2-3; Sarel, R. (2023). Restraining ChatGPT, p. 8-9. (Hierna: Sarel (2023)).
4. Europol. (2023). ChatGPT: The impact of Large Language Models on Law Enforcement. Geraadpleegd op 7 april 2023, van https://www.europol.europa.eu/cms/sites/default/files/documents/Tech%20Watch%20Flash%20-%20The%20Impact%20of%20Large%20Language%20Models%20on%20Law%20Enforcement.pdf, p. 3-4. (Hierna: Europol (2023));
5. Europol (2023), p. 3-4; Sarel (2023), p. 9.
6. Sarel (2023), p. 8-9.
7. Hacker (2023), p 2.
8. Protection of personal data and privacy. Council of Europe. Geraadpleegd op 8 april 2023, van https://www.coe.int/en/web/portal/personal-data-protection-and-privacy.
9. Purtova, N. (2018). The law of everything. Broad concept of personal data and future of EU data protection law. Law, Innovation and Technology, 10(1). Geraadpleegd op 29 maart 2023, van https://doi.org/10.1080/17579961.2018.1452176, p. 43-44.
10. Ibid.
11. Tzanou, M. (2020). The unexpected consequences of the EU Right to Be Forgotten: Internet search engines as fundamental rights adjudicators. In Personal Data Protection and Legal Developments in the European Union (pp. 279-301). IGI Global, p. 1-2 of the electronic copy. (Hierna: Tzanou (2020)).
12. Artikel 4(1) AVG.
13. HvJEU [GC] 13 mei 2014, Google Spain, C-131/12, ECLI:EU:C:2014:317, para. 99 en uitspraak. (Hierna: Google Spain)
14. Google Spain para. 81.
15. Google Spain para. 99 en de uitspraak.
16. Ibid.
17. Tzanou (2020), p. 1-2.
18. Veale, M., Binns, R., & Edwards, L. (2018). Algorithms that remember: model inversion attacks and data protection law. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 376(2133), 20180083, p. 9. (Hiernaa: Veale et al (2018)).
19. Ibid.
20. Veale et al (2018), p. 9.
21. Ibid.
22. Cao, Y., & Yang, J. (2015, May). Towards making systems forget with machine unlearning. In 2015 IEEE symposium on security and privacy (pp. 463-480). IEEE.
23. Veale et al (2018), p. 10.
24. Zie bijv. Ausloos, J. Toh, J., & Giannopoulou, A. (23 november 2022). The case for collective action against the harms of data-driven technologies. Ada Lovelace Institute. Geraadpleegd op 7 april 2023, van https://www.adalovelaceinstitute.org/blog/collective-action-harms/.
25. Google Spain, para. 99.
26. Artikel 29 Werkgroep. (2014). Guidelines on the implementation of the Court of Justice of the European Union judgment on “Google Spain and Inc. v. Agencia Española de Protección de Datos (AEPD) and Mario Costeja González” C-131/12. Geraadpleegd op 8 april 2023, van https://ec.europa.eu/newsroom/article29/tems/667236/en, p. 6.
27. Ibid.
28. OpenAI. (2023). GPT-4. Geraadpleegd op 7 april 2023, van https://openai.com/research/gpt-4.
29. HvJEU [GC] 24 september 2019, Google v CNIL, C-131/12, ECLI:EU:C:2019:772, para.63. (Hierna: Google v CNIL).
30. Google v CNIL, para. 72.