Menu

Filter op
content
PONT Data&Privacy

0

Zo werkt Big Data governance: 5 stappen

Hoe je je juridisch moet indekken.Databescherming en het registreren en traceren van gevoelige gegevens: de weg naar adequate governance is moeizaam. Hoe pakken we dat aan?

11 April 2017

Het is aan juristen om grenzen te stellen aan het legale gebruik van persoonlijke data binnen het bedrijf. Structuur en inhoud van de database moeten zo ingericht worden dat data gemakkelijk teruggevonden kan worden.

Dataleveranciers willen en moeten data tegenwoordig één op één in het data lake kunnen inladen, zonder dat daar nog omslachtige bewerkingen met specifieke programmatuur voor nodig zijn.

Omdat iedereen het recht heeft om zijn of haar persoonlijke gegevens in te zien en te laten verwijderen, moeten zowel de datastroom binnen het data lake als de vervolgstappen, bijvoorbeeld in analytical sandboxes, inzichtelijk zijn.

Welke regels spelen een rol bij het verwerken van de data? Deze vraag staat bij veel bedrijven steeds vaker centraal, maar roept daarnaast veel onduidelijkheden op. Vijf aspecten spelen een cruciale rol bij het tegengaan van wildgroei.

Dit zijn:

  • contractuele aspecten (contract)

  • de registratie (register)

  • de beveiliging (protect) van data

  • de voorbereiding van de data (prepare)

  • het volgen van de data (trace)

Al met al brengt dit vraagstukken, die niets met de technologie te maken hebben, meer naar de voorgrond. Ook dat illustreert duidelijk het verschil tussen de vroegere Business-Intelligence en de huidige Big-Data-Analytics-periode. Meer hierover in het eerste deel van deze artikelreeks. De volgende analyse laat zien, hoe bedrijven een gestructureerde Big Data governance kunnen opbouwen.

1. Overeenkomsten:De juridische afdeling geeft het startsein

Hoe belangrijker externe data in de context van Big Data worden, hoe complexer de daaraan gelieerde juridische aspecten. Daarom is het belangrijk dat juristen aan alle betrokkenen de grens aangeven voor het legale gebruik van data binnen het bedrijf.

Licentieovereenkomsten leggen een beperking op aan het gebruikersdoeleinde of de tijdsduur van het datagebruik. Ook worden zo bepaalde voorwaarden aan de bescherming, verspreiding of aanpassen van de data gesteld. Zo kan een Twitteraar ervan op aan, dat een tweet op verzoek binnen afzienbare tijd uit alle gevolgde berichten verwijderd wordt.

Het verzoek tot het verwijderen van persoonsgebonden gegevens komt vaak voor. Dit is ook vastgelegd als het "vergeetrecht" of "het recht om vergeten te worden" in de Algemene Verordening Gegevensbescherming (AVG) van de Europese Unie. Om hieraan te kunnen voldoen, moet de datastroom te volgen zijn. Ook op technisch gebied zijn de nodige inspanningen vereist om de data uit NoSQL-databases te verwijderen.

2. Registratie: zo vinden bedrijven hun data terug

Op het gebied van Big Data Analytics nemen bedrijven vaak de structuur van het data lake als uitgangspunt. Een doel van het data-lake-principe is een uitgebreide verzameling van interne en externe data. Het is daarbij gebruikelijk om data te delen met een community van data scientists en data analisten.

Maar zelfs als het data lake volledig gevuld en de data gedeeld is, moet de data scientist eerst maar eens de gegevens kunnen vinden, die relevant zijn voor een vaktechnisch vraagstuk. Als het data lake tot aan de rand gevuld is, is dat gemakkelijker gezegd dan gedaan.

Hoe gaat dat dan in de praktijk?

Allereerst moeten de Big Dataleveranciers direct de gegevens registreren, zodra ze in het data lake geladen zijn. Structuur en inhoud van de database moeten zo ingericht zijn dat data gemakkelijk teruggevonden kan worden. Aan de datacatalogus ligt een commerciële taxonomie ten grondslag, het gaan dan om de marktsegmenten die relevant zijn voor een bedrijf.

Kenmerkende categorieën in deze zijn bedrijfsprocessen, customer journeys, branches, producten, services, regionale en landelijke ondernemingen alsmede tijd. De omvang van de taxonomie moet zowel overzichtelijk als begrijpelijk zijn. Taxonomie is eigenlijk niets minder dan een boomstructuur. Dataleveranciers, datastewards, maar ook data scientists nemen de benaming van de bestanden voor hun rekening. Daarbij wordt geen strikte categorie-indeling gehanteerd; het gebruik van tags is hiervoor geschikter. Dat houdt in dat een document kan tot verschillende rangen van de taxonomie kan behoren. Zo kan een databron bijvoorbeeld informatie over verschillende producten uit verschillende regio's bevatten.

Zoekmachine

De datacatalogus is echter geen doel op zich. Veel belangrijker is het gebruik ervan voor een zoekmachine, die de informatie uit de databank indexeert. Met behulp van een intuïtieve, grafische gebruikersinterface kunnen data scientists en business analisten dan ook met bepaalde trefwoorden, facetten of andere criteria naar data assets zoeken. Daarvoor bestaan een aantal productieve tools, die qua gebruikerservaring en nauwkeurigheid gelijkwaardig zijn met een webshop van Amazon.

Naast een indeling in categorieën is het minstens zo belangrijk dat de beheerders vasthouden aan de vaktechnische betekenis en de informatie in de juiste context plaatsen. Alleen zo kunnen ze verkeerde interpretaties uitsluiten en voor een efficiënte toepassing van de data zorgen.

Lees verder

Artikel delen

Reacties

Laat een reactie achter

U moet ingelogd zijn om een reactie te plaatsen.