De Blinde Vlek Van Kolomverwijdering
Bijgewerkt voor 2026
Onderzoeksdatasets worden als CSV-bestanden uitgewisseld tussen universiteiten. Bij het voorbereiden van een CSV voor deling werken teams op kolomniveau. Zoek de persoonlijke gegevens. Verwijder of vervang ze.
Die methode werkt voor vaste velden. Een kolom met de naam 'e-mail' bevat e-mailadressen — verwijder die. Een kolom 'telefoon' bevat telefoonnummers — verwijder die. Een kolom 'deelnemer_naam' bevat namen — vervang ze door een code.
Maar vrije-tekst-antwoordkolommen zijn een blinde vlek. Het verwijderen van gelabelde kolommen raakt ze niet.
Een enquête met 5.000 rijen kan vijf gestructureerde PII-kolommen en vijftien open-tekst-antwoordkolommen hebben. De gestructureerde kolommen bevatten namen, e-mails, telefoonnummers, ID's en geboortejaren. De open-tekst-kolommen bevatten opmerkingen, notities en suggesties.
De gestructureerde kolommen worden opgeschoond. De open-tekst-kolommen blijven rauw. Maar mensen schrijven dingen als deze drie voorbeelden.
Eerste: "Mijn arts bij het Boston Medical Center, Dr. Maria Santos, zei dat de behandeling nieuw was." Tweede: "Ik heb hier al last van sinds mijn ongeluk in 2019." Derde: "U kunt mijn verzorger bereiken via margaret.wells@gmail.com voor meer informatie."
Elke invoer noemt een echte persoon. Sommige bevatten gezondheidsfeiten of contactgegevens. Niets hiervan staat in een kolomkop. Niets hiervan wordt onderschept door kolomverwijdering.
Waarom Dit De AVG-Norm Niet Haalt
AVG-overweging 26 definieert anonieme gegevens als gegevens die niet aan een persoon kunnen worden gekoppeld. De lat ligt hoog. Gegevens zijn pas echt anoniem wanneer heridentificatie redelijkerwijs niet mogelijk is.
Een CSV met schone vaste kolommen maar met genoemde personen in open tekst haalt die drempel niet. Die namen zijn identificeerbaar. De dataset bevat nog steeds persoonsgegevens. AVG-artikel 89 is nog steeds van toepassing. Zo ontstaan drie risico's.
Artikel 89-onderzoeksvrijstelling: Artikel 89 staat onderzoekers toe persoonsgegevens voor wetenschappelijke doeleinden te verwerken met minder verplichtingen. Maar alleen wanneer er "passende waarborgen" bestaan. Een bestand delen met open-tekst-PII terwijl artikel 89 als dekking wordt ingeroepen is juridisch onhoudbaar.
Ethische goedkeuring: De meeste IRB's en ethische commissies vereisen volledige anonimisering voor gedeelde datasets. Gedeeltelijk werk — vaste kolommen opgeschoond, open tekst rauw gelaten — haalt de norm doorgaans niet. De commissie kan de indiening afwijzen.
Gegevensdeling-overeenkomsten: DSA's tussen instellingen stellen het vereiste anonimiseringsniveau vast. Gedeeltelijk werk dat AVG-overweging 26 schendt kan de DSA overtreden. Zie ons wettelijk complianceoverzicht voor hoe dit in een breder programma past.
Waarom Open Tekst Zo Moeilijk Op Te Schonen Is
Vrije-tekst-enquêteantworden behoren tot de moeilijkste PII-doelwitten. Dit is waarom.
Namen in context: "Dr. Maria Santos bij het Boston Medical Center" vereist Named Entity Recognition (NER) om een persoon en een organisatie te markeren. Trefwoordlijsten kunnen dit niet vinden.
Namen in verhalen: "De auto van John Henderson reed mijn auto aan" plaatst een echte naam in een verhaal. Het is een persoon die terloops wordt genoemd. Alleen NER onderschept dit.
Niet-standaard formaten: Contactgegevens kunnen luiden als "bereik mij op margaret punt wells bij gmail." Eenvoudige regex-tools missen dit.
Onderzoeksspecifieke termen: Klinische enquêtes bevatten vaak ziekenhuis-ID's, sitecodes en plaatsnamen. Deze kunnen een persoon identificeren zelfs als ze generiek lijken.
Patroonomschrijving alleen is dus niet voldoende. Op NLP gebaseerde tools zijn nodig voor echte enquête-anonimisering. Zie Beveiliging & Compliance voor technische opties.
Een Concreet Voorbeeld Van Drie Universiteiten
Een onderzoeksteam bij drie Europese universiteiten voerde een patiëntervaringsonderzoek uit. De dataset had 5.000 respondenten, 3 vaste PII-kolommen en 8 open-tekst-kolommen. Het plan was om het bestand te delen tussen locaties onder een DSA en AVG-artikel 89.
Met alleen kolomverwijdering:
- Vaste PII-kolommen: verwijderd
- Open-tekst-kolommen: rauw gelaten
- Bewering: "PII-kolommen verwijderd"
- Achtergebleven PII: 47 genoemde personen, 23 e-mailadressen in opmerkingen, 18 plaatsnamen die respondenten kunnen identificeren
Met NLP-gebaseerde detectie:
- Vaste PII-kolommen: vervangen door consistente tokens
- Open-tekst-kolommen: 47 namen vervangen, 23 e-mails gemaskeerd, 18 plaatsnamen generiek gemaakt ("Boston Medical Center" → "[Zorginstelling]")
- Resultaat: een bestand dat voldoet aan AVG-overweging 26
- Ethische commissie keurde de methode goed
- DPO bevestigde DSA-naleving
Het verschil is reëel. De eerste uitvoer ziet er schoon uit. De tweede uitvoer ís schoon.
Een Vijfstaps-Protocol Vóór Het Delen
Gebruik deze stappen vóór het delen van een enquête- of interviewbestand.
Stap 1: Label elke kolom Markeer elke kolom als vaste PII, vaste niet-PII, of open tekst. Schrijf dit op.
Stap 2: Behandel vaste PII Verwijder vermeldingen die niet nodig zijn voor analyse. Vervang vermeldingen die nodig zijn voor het koppelen van records. Leg de gebruikte codes vast.
Stap 3: Scan open-tekst-kolommen Voer NLP-detectie uit op alle open-tekst-kolommen. Bekijk elk resultaat. Bevestig welke echt PII zijn.
Stap 4: Pas vervangingen toe Vervang bevestigde PII in de open-tekst-uitvoer. Gebruik duidelijke labels zoals `[PERSOON]`, `[EMAIL]` of `[LOCATIE]`.
Stap 5: Verifieer en documenteer Bemonsterde 50–100 rijen uit de uitvoer. Controleer de open-tekst-vermeldingen handmatig. Schrijf een korte samenvatting: gebruikte tools, gevonden entiteitstypen, verwerkte kolommen. Deel dit bij het bestand voor ethische beoordeling.
Dit verandert "we hebben de naamkolom verwijderd" in een helder, gedocumenteerd proces. Het voldoet aan AVG-artikel 89 en de anonimiseringsnormen die de meeste ethische commissies vereisen. Bezoek ons documentatiehub voor gerelateerde gidsen.
Bronnen
- AVG Artikel 89: Waarborgen voor wetenschappelijk onderzoek — GEVERIFIEERD-EXTERN
- AVG Overweging 26: Anonimiseringsbeginsel — GEVERIFIEERD-EXTERN
- ICO: Anonimisering en gegevensbeschermingsrisico — GEVERIFIEERD-EXTERN