anonym.legal

By · Last updated 2026-06-05

Terug naar BlogGDPR & Naleving

CSV Vrije-Tekst PII: Verder Dan Kolomverwijdering

Onderzoeks-CSV's bevatten PII niet alleen in gestructureerde kolommen maar ook in vrije-tekstantwoorden. Standaard kolomverwijdering mist de PII die AVG-overtredingen veroorzaakt.

June 5, 20267 min lezen
research dataCSV anonymizationGDPR Article 89survey datadata sharing

De Blinde Vlek Van Kolomverwijdering

Bijgewerkt voor 2026

Onderzoeksdatasets worden als CSV-bestanden uitgewisseld tussen universiteiten. Bij het voorbereiden van een CSV voor deling werken teams op kolomniveau. Zoek de persoonlijke gegevens. Verwijder of vervang ze.

Die methode werkt voor vaste velden. Een kolom met de naam 'e-mail' bevat e-mailadressen — verwijder die. Een kolom 'telefoon' bevat telefoonnummers — verwijder die. Een kolom 'deelnemer_naam' bevat namen — vervang ze door een code.

Maar vrije-tekst-antwoordkolommen zijn een blinde vlek. Het verwijderen van gelabelde kolommen raakt ze niet.

Een enquête met 5.000 rijen kan vijf gestructureerde PII-kolommen en vijftien open-tekst-antwoordkolommen hebben. De gestructureerde kolommen bevatten namen, e-mails, telefoonnummers, ID's en geboortejaren. De open-tekst-kolommen bevatten opmerkingen, notities en suggesties.

De gestructureerde kolommen worden opgeschoond. De open-tekst-kolommen blijven rauw. Maar mensen schrijven dingen als deze drie voorbeelden.

Eerste: "Mijn arts bij het Boston Medical Center, Dr. Maria Santos, zei dat de behandeling nieuw was." Tweede: "Ik heb hier al last van sinds mijn ongeluk in 2019." Derde: "U kunt mijn verzorger bereiken via margaret.wells@gmail.com voor meer informatie."

Elke invoer noemt een echte persoon. Sommige bevatten gezondheidsfeiten of contactgegevens. Niets hiervan staat in een kolomkop. Niets hiervan wordt onderschept door kolomverwijdering.

Waarom Dit De AVG-Norm Niet Haalt

AVG-overweging 26 definieert anonieme gegevens als gegevens die niet aan een persoon kunnen worden gekoppeld. De lat ligt hoog. Gegevens zijn pas echt anoniem wanneer heridentificatie redelijkerwijs niet mogelijk is.

Een CSV met schone vaste kolommen maar met genoemde personen in open tekst haalt die drempel niet. Die namen zijn identificeerbaar. De dataset bevat nog steeds persoonsgegevens. AVG-artikel 89 is nog steeds van toepassing. Zo ontstaan drie risico's.

Artikel 89-onderzoeksvrijstelling: Artikel 89 staat onderzoekers toe persoonsgegevens voor wetenschappelijke doeleinden te verwerken met minder verplichtingen. Maar alleen wanneer er "passende waarborgen" bestaan. Een bestand delen met open-tekst-PII terwijl artikel 89 als dekking wordt ingeroepen is juridisch onhoudbaar.

Ethische goedkeuring: De meeste IRB's en ethische commissies vereisen volledige anonimisering voor gedeelde datasets. Gedeeltelijk werk — vaste kolommen opgeschoond, open tekst rauw gelaten — haalt de norm doorgaans niet. De commissie kan de indiening afwijzen.

Gegevensdeling-overeenkomsten: DSA's tussen instellingen stellen het vereiste anonimiseringsniveau vast. Gedeeltelijk werk dat AVG-overweging 26 schendt kan de DSA overtreden. Zie ons wettelijk complianceoverzicht voor hoe dit in een breder programma past.

Waarom Open Tekst Zo Moeilijk Op Te Schonen Is

Vrije-tekst-enquêteantworden behoren tot de moeilijkste PII-doelwitten. Dit is waarom.

Namen in context: "Dr. Maria Santos bij het Boston Medical Center" vereist Named Entity Recognition (NER) om een persoon en een organisatie te markeren. Trefwoordlijsten kunnen dit niet vinden.

Namen in verhalen: "De auto van John Henderson reed mijn auto aan" plaatst een echte naam in een verhaal. Het is een persoon die terloops wordt genoemd. Alleen NER onderschept dit.

Niet-standaard formaten: Contactgegevens kunnen luiden als "bereik mij op margaret punt wells bij gmail." Eenvoudige regex-tools missen dit.

Onderzoeksspecifieke termen: Klinische enquêtes bevatten vaak ziekenhuis-ID's, sitecodes en plaatsnamen. Deze kunnen een persoon identificeren zelfs als ze generiek lijken.

Patroonomschrijving alleen is dus niet voldoende. Op NLP gebaseerde tools zijn nodig voor echte enquête-anonimisering. Zie Beveiliging & Compliance voor technische opties.

Een Concreet Voorbeeld Van Drie Universiteiten

Een onderzoeksteam bij drie Europese universiteiten voerde een patiëntervaringsonderzoek uit. De dataset had 5.000 respondenten, 3 vaste PII-kolommen en 8 open-tekst-kolommen. Het plan was om het bestand te delen tussen locaties onder een DSA en AVG-artikel 89.

Met alleen kolomverwijdering:

  • Vaste PII-kolommen: verwijderd
  • Open-tekst-kolommen: rauw gelaten
  • Bewering: "PII-kolommen verwijderd"
  • Achtergebleven PII: 47 genoemde personen, 23 e-mailadressen in opmerkingen, 18 plaatsnamen die respondenten kunnen identificeren

Met NLP-gebaseerde detectie:

  • Vaste PII-kolommen: vervangen door consistente tokens
  • Open-tekst-kolommen: 47 namen vervangen, 23 e-mails gemaskeerd, 18 plaatsnamen generiek gemaakt ("Boston Medical Center" → "[Zorginstelling]")
  • Resultaat: een bestand dat voldoet aan AVG-overweging 26
  • Ethische commissie keurde de methode goed
  • DPO bevestigde DSA-naleving

Het verschil is reëel. De eerste uitvoer ziet er schoon uit. De tweede uitvoer ís schoon.

Een Vijfstaps-Protocol Vóór Het Delen

Gebruik deze stappen vóór het delen van een enquête- of interviewbestand.

Stap 1: Label elke kolom Markeer elke kolom als vaste PII, vaste niet-PII, of open tekst. Schrijf dit op.

Stap 2: Behandel vaste PII Verwijder vermeldingen die niet nodig zijn voor analyse. Vervang vermeldingen die nodig zijn voor het koppelen van records. Leg de gebruikte codes vast.

Stap 3: Scan open-tekst-kolommen Voer NLP-detectie uit op alle open-tekst-kolommen. Bekijk elk resultaat. Bevestig welke echt PII zijn.

Stap 4: Pas vervangingen toe Vervang bevestigde PII in de open-tekst-uitvoer. Gebruik duidelijke labels zoals `[PERSOON]`, `[EMAIL]` of `[LOCATIE]`.

Stap 5: Verifieer en documenteer Bemonsterde 50–100 rijen uit de uitvoer. Controleer de open-tekst-vermeldingen handmatig. Schrijf een korte samenvatting: gebruikte tools, gevonden entiteitstypen, verwerkte kolommen. Deel dit bij het bestand voor ethische beoordeling.

Dit verandert "we hebben de naamkolom verwijderd" in een helder, gedocumenteerd proces. Het voldoet aan AVG-artikel 89 en de anonimiseringsnormen die de meeste ethische commissies vereisen. Bezoek ons documentatiehub voor gerelateerde gidsen.

Bronnen

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.