Informatiebeveiliging

Informatiebeveiliging betreft het treffen van maatregelen om de beschikbaarheid, exclusiviteit en integriteit van alle vormen van informatie binnen een organisatie of een maatschappij te waarborgen en de eventuele gevolgen van incidenten te beperken tot een acceptabel, vooraf bepaald niveau.

Techblogpost: Praktische problemen bij het afknippen van hashes

Regelmatig krijgt de Autoriteit Persoonsgegevens (AP) bij onderzoeken te maken met organisaties die aangeven dat zij anonieme gegevens verwerken (en dus geen persoonsgegevens) doordat de gegevens ‘gehasht en afgeknipt’ zijn. In de praktijk constateert de AP dat organisaties bij deze vorm van anonimisering vaak fouten maken, waardoor de gegevens toch niet anoniem blijken te zijn. In deze blogpost lichten de AP-technologen dit onderwerp toe voor technisch geïnteresseerden.

30 April 2021

Nieuws-persbericht

Let op: de juiste toepassing van de technieken die hier genoemd worden, is lastig en vaak afhankelijk van het geval. Dit is dus geen technisch of juridisch advies.

k-anonimity

Een veelgebruikte methode om gegevens te anonimiseren is k-anonimity. Hierbij verander je een dataset zo dat iedere combinatie van attributen altijd minstens k keer voorkomt.

Onder de juiste omstandigheden en als k groot genoeg is, is het herleiden van personen dan onmogelijk. Iedere persoon maakt dan deel uit van een groep gelijken. Immers (k-1) anderen hebben dezelfde attributen.

Afknippen

Een manier om groepen te maken is door attributen af te ronden. Als je uit een dataset bijvoorbeeld alle leeftijden naar beneden afrondt op tientallen, dan ontstaan er vanzelf groepen. Iemand met leeftijd 29 valt dan in dezelfde groep als iemand met leeftijd 21 of iemand met leeftijd 27, namelijk de groep met leeftijd 20.

Met een beetje fantasie is dit afronden een bewerking die je ook kunt doen door afknippen. Neem een leeftijd van 26. Hiervan 1 symbool afknippen, van rechts af gezien, resulteert in leeftijd 2.

Na afknippen valt dus weer iedereen met een leeftijd van 20-29 in dezelfde groep. (Afhankelijk van de toepassing kun je na het afknippen weer een symbool toevoegen, zoals een 0, maar dat verandert niets aan het effect.)

Eerst hashen

Het wordt anders wanneer je een identificator hebt van een persoon of een aan een persoon gerelateerd apparaat, zoals een telefoonnummer, IP-adres, MAC-adres, IMSI-nummer of vergelijkbaar.

Aan een afgeknipt IP-adres kun je bijvoorbeeld nog steeds zien bij welke internetprovider iemand zit en soms ook in welke omgeving deze persoon woont. Om dit soort gevolgtrekkingen te vermijden, worden dit soort gegevens vaak gehasht.

Afbeelding van gehashte telefoonnummers

Overigens maakt het voor de herleidbaarheid van personen vaak geen verschil of identificatoren op zichzelf betekenis hebben (IP-adressen, IMSI-nummers, MAC-adressen enz.) of betekenisloos zijn (hashwaarden, willekeurige getallen of symboolreeksen enz.).

Hashes afknippen

Hashwaarden zijn niet willekeurig, ook al zien ze er wel zo uit. Wat ook opvalt, is dat ze uit veel symbolen bestaan. Met andere woorden: er zijn enorm veel mogelijke hashwaarden.

En dat is ook de valkuil: hoewel er veel mogelijke uitkomsten zijn, is er meestal maar een beperkt aantal 'inputs'. Of iets formeler: het bereik van de hashfunctie is in de praktijk vele malen groter dan het domein.

Zo zijn er in Nederland in totaal ongeveer 54 miljoen mobiele nummers uitgegeven. Dat klinkt als veel, maar dit is maar een minieme fractie van het aantal mogelijke sha256-hashes. En dat is waar onze intuïtie ons in de steek laat.

Bij een ongehasht telefoonnummer zorgt het afknippen van 2 symbolen voor groepen tot 100 telefoonnummers. Afhankelijk van hoeveel nummers er in de dataset zitten, levert dat een k > 1 op.

Verder onderzoek zal dan moeten uitwijzen of 2 symbolen afknippen voldoende is, of dat het er toch 3, 4 of meer moeten zijn, eventueel afhankelijk van de nummerreeks.

Heel anders is de situatie na hashen. Dan is iedere hashwaarde uniek, ook na het afknippen van enkele symbolen.

Afbeelding van gehashte telefoonnummers waarbij enkele symbolen zijn afgeknipt

Maar hoeveel moet je dan afknippen om van gehashte attributen groepen te maken? Het antwoord is afhankelijk van de dataset, maar in veel gevallen: bijna alles.

Neem bijvoorbeeld het eerste telefoonnummer uit de figuren hierboven. Hoewel dat maar 1 cijfer verschilt met het tweede telefoonnummer, zijn de hashwaardes compleet anders.

En als de hele dataset zou bestaan uit de 4 gegeven voorbeelden, is het zelfs onmogelijk om groepen te maken door symbolen af te knippen van gehashte telefoonnummers.

De juiste vraag is daarom niet hoeveel je moet afknippen, maar hoeveel je kunt bewaren.

Want wat is dan het gevolg van te weinig symbolen van gehashte attributen afknippen? Dat is een dataset die nog steeds persoonsgegevens bevat.

Want te weinig afknippen van hashwaardes laat unieke identificatoren achter. En dan is er dus géén sprake van geanonimiseerde gegevens.

Reacties

MEER REACTIES

Laat een reactie achter Reactie annuleren

U moet ingelogd zijn om een reactie te plaatsen.

NIEUWS

Kifid bepaalt grens: persoonsgegevens uit antiwitwasonderzoek maximaal vijf jaar bewaard

Nieuws/persbericht

EU-landen willen leeftijdsverificatie op social media

Nieuws/persbericht

Veilig en verantwoord naar de cloud: aandachtspunten voor organisaties

Blog

Hoe kan ISO 27001 (informatiebeveiliging) helpen bij het voldoen aan de AVG?

Blog

Informatiebeveiliging en privacy hebben veel raakvlakken, denk hierbij aan ransomware, want als er een ransomware aanval gedaan wordt en deze slaagt, heeft u te maken met een datalek....

BLOG: Wat is een coördinerend Functionaris Gegevensbescherming en wat zijn de uitdagingen en voordelen?

Blog

L2P

Beleid e-mailarchivering een stap verder

Nieuws-persbericht

Yuri Bobbert wint prestigieuze leiderschapsprijs: ‘Europa moet innoveren, niet dereguleren’

Interviews

Onderzoek en campagne rondom informatiehuishouding

Nieuws-persbericht

Sneak peek CIO-café over kansen quantumtechnologie

Nieuws-persbericht

Digitale Overheid

AI in IT-contracten: juridisch waterdicht en flexibel

De AI Act is een belangrijke Europese wet die eisen gaat stellen aan AI, onder andere met betrekking tot testdata, transparantie en de controle van uitkomsten door natuurlijke personen. Het is essentieel om in contracten rekening te houden met deze wetgeving om mogelijke juridische problemen te voorkomen. Hoe pak je dat aan?

Meer informatie

Inzicht in de NIS2-richtlijn voor Bestuurders en Managers

Ben je bestuurder, manager of beleidsmaker en wil je beter voorbereid zijn op de nieuwste cybersecurity-wetgeving? Onze 1-daagse cursus biedt je een volledig overzicht van de NIS2-richtlijn, inclusief de juridische en technische verplichtingen die essentieel zijn voor jouw organisatie: een multidisciplinaire benadering van deze complexe materie. Leer hoe je kunt voldoen aan de strenge eisen van de NIS2 en hoe je risico's kunt minimaliseren.

Meer informatie

Privacybeleid in de praktijk: implementeren, onderhouden, overtuigen

In één dag leer je een privacybeleid uit te rollen en ga je naar huis met een praktisch stappenplan om het zelf te kunnen doen. Hanteer je al een privacybeleid? Je leert hier ook of je alle elementen van jouw privacybeleid op orde hebt.

Meer informatie

Inzage- en verwijderverzoeken

Individuen beroepen zich steeds vaker op hun privacyrechten. Ze vragen bijvoorbeeld om een kopie van hun gegevens of eisen juist dat de organisatie al hun gegevens wist. Dat levert complexe vragen op. Voor veel organisaties is het een uitdaging: hoe kunnen zij al deze verzoeken efficiënt maar ook goed inwilligen? Enerzijds is privacy compliance van belang, anderzijds wil je je eigen bewijspositie in een eventuele toekomstige procedure niet benadelen. Lastige materie met veel valkuilen. In deze cursus krijg je handvatten om privacyverzoeken efficiënt én compliant af te handelen. De docent gebruikt veel praktijkvoorbeelden en concrete cases worden samen uitgewerkt zodat jouw praktijkvragen direct aan de orde komen.

Meer informatie

Expert lidmaatschap

Profiteer nu

Menu

FILTER OP CONTENT

Techblogpost: Praktische problemen bij het afknippen van hashes

30 April 2021

Nieuws-persbericht

k-anonimity

Afknippen

Eerst hashen

Hashes afknippen

Reacties

Laat een reactie achter Reactie annuleren

NIEUWS

Kifid bepaalt grens: persoonsgegevens uit antiwitwasonderzoek maximaal vijf jaar bewaard

Hoe kan ISO 27001 (informatiebeveiliging) helpen bij het voldoen aan de AVG?

Beleid e-mailarchivering een stap verder

KENNISPARTNER

Robert van Vianen

AI in IT-contracten: juridisch waterdicht en flexibel

Inzicht in de NIS2-richtlijn voor Bestuurders en Managers

Privacybeleid in de praktijk: implementeren, onderhouden, overtuigen

Inzage- en verwijderverzoeken

Expert lidmaatschap

Word lid van PONT | Data & Privacy

Algemeen

Service

Navigeer

Berghauser Pont Mediagroep

CONTACT

Menu

FILTER OP CONTENT

Techblogpost: Praktische problemen bij het afknippen van hashes

30 April 2021

Nieuws-persbericht

k-anonimity

Afknippen

Eerst hashen

Hashes afknippen

Reacties

Laat een reactie achter Reactie annuleren

NIEUWS

Kifid bepaalt grens: persoonsgegevens uit antiwitwasonderzoek maximaal vijf jaar bewaard

Hoe kan ISO 27001 (informatiebeveiliging) helpen bij het voldoen aan de AVG?

Beleid e-mailarchivering een stap verder

KENNISPARTNER

Robert van Vianen

AI in IT-contracten: juridisch waterdicht en flexibel

Inzicht in de NIS2-richtlijn voor Bestuurders en Managers

Privacybeleid in de praktijk: implementeren, onderhouden, overtuigen

Inzage- en verwijderverzoeken

Expert lidmaatschap

Meld je aan voor de nieuwsbrief

Word lid van PONT | Data & Privacy

Algemeen

Service

Navigeer

Berghauser Pont Mediagroep

CONTACT