anonym.legal

By · Last updated 2026-06-05

Terug na BlogGDPR & Nakoming

CSV Vryeteks-PII: Verder as Kolomverwydering

Opname-CSV's bevat PII nie net in gestruktureerde kolomme nie maar ook in vryeteks-antwoorde. Standaard kolomverwydering mis die PII wat GDPR se anonimiseringstandaard skend.

June 5, 20267 min lees
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Die Leemte Wat Kolomverwydering Mis

Bygewerk vir 2026

Navorsing-datastelle beweeg tussen universiteite as CSV-leers. Wanneer spanne 'n CSV vir deling voorberei, is die werk kolomgebaseer. Vind die persoonlike inligting. Verwyder of vervang dit.

Hierdie metode werk vir vaste velde. 'n Kolom genaamd 'e-pos' bevat e-posadresse -- verwyder dit. 'n Kolom genaamd 'foon' bevat telefoonnommers -- verwyder dit. 'n Kolom genaamd 'deelnemer_naam' bevat name -- ruil dit vir 'n kode.

Maar vryeteks-antwoordkolomme is 'n blinde vlek. Die verwydering van gemerkte kolomme raak hulle nie aan nie.

'n Opname met 5 000 rye kan vyf gestruktureerde PII-kolomme en vyftien oop-teks-antwoordkolomme he. Die gestruktureerde ones bevat name, e-posse, telefoonnommers, ID's en geboortejare. Die oop-teks-ones bevat kommentaar, notas en voorstelle.

Die gestruktureerde kolomme word skoongemaak. Die oop-teks-kolomme bly rou. Maar mense skryf sulke dinge as hierdie drie voorbeelde.

Eerste: 'My dokter by Boston Medical Center, Dr. Maria Santos, het gese die behandeling was nuut.' Tweede: 'Ek het hiermee te doen gehad sedert my 2019-ongeluk.' Derde: 'U kan my versorger by margaret.wells@gmail.com bereik vir besonderhede.'

Elke inskrywing noem 'n werklike persoon. Sommige sluit gesondheidsfeite of kontakinfo in. Niks hiervan verskyn in 'n kolomopskrif nie. Niks word deur kolomverwydering gevang nie.

Waarom Dit Die GDPR-standaard Misluk

GDPR Oorweging 26 definieer anonieme rekords as rekords wat nie aan enige persoon geskakel kan word nie. Die drempel is hoog. Rekords is slegs werklik anoniem wanneer heridentifikasie nie redelikerwys moontlik is nie.

'n CSV met skoon vaste kolomme maar genoemde mense in oop-teks voldoen nie aan hierdie toets nie. Hierdie name is identifiseerbaar. Die datastel is steeds persoonlik. GDPR Artikel 89-reels geld steeds. So ontstaan hierdie drie risiko's.

Artikel 89 navorsings-uitsondering: Artikel 89 laat navorsers toe om persoonlike inligting vir wetenskap met minder verpligtinge te verwerk. Maar slegs waar 'gepaste waarborgde' bestaan. Die deling van 'n leer met oop-teks-PII terwyl Artikel 89-dekking geeis word, is 'n regsversaking.

Etieksgoedkeuring: Die meeste IRB's en etieksrade vereis volle anonimisering vir gedeelde datastelle. Gedeeltelike werk -- vaste kolomme skoongemaak, oop-teks rou gelaat -- misluk tipies. Die raad kan die inskrywing verwerp.

Datadelingooreenkomste: DSA's tussen instellings stel die vereiste anonimiseringsvlak. Gedeeltelike werk wat GDPR Oorweging 26 misluk, kan die DSA skend. Sien ons Regsnakoming-oorsig vir hoe dit in 'n breere program pas.

Waarom Oop-teks So Moeilik is om Skoon te Maak

Vryeteks-opname-antwoorde is van die moeilikste PII-teikens. Hier is hoekom.

Name in konteks: 'Dr. Maria Santos by Boston Medical Center' vereis benoemde entiteitsherkenning (NER) om 'n persoon en 'n organisasie te merk. Sleutelwoordlyste kan dit nie vind nie.

Name in stories: 'John Henderson se kar het myne getref' plaas 'n werklike naam in 'n verhaal. Dit is 'n persoon wat in die verbygaan genoem word. Slegs NER vang dit.

Nie-standaard formate: Kontakinfo kan lees: 'bereik my by margaret punt wells by gmail.' Eenvoudige regex-instrumente mis hierdie.

Navorsing-spesifieke terme: Kliniese opnames bevat dikwels hospitaal-ID's, terrein-kodes en plekname. Hierdie kan 'n persoon identifiseer selfs as dit generies lyk.

Patroonpassing alleen is dus nie genoeg nie. NLP-gebaseerde instrumente is nodig vir werklike opname-anonimisering. Sien Veiligheid en Nakoming vir tegniese opsies.

'n Werklike Voorbeeld van Drie Universiteite

'n Navorsingsspan by drie Europese universiteite het 'n patiente-ervaringopname geloods. Die datastel het 5 000 respondente, 3 vaste PII-kolomme en 8 oop-teks-kolomme gehad. Die plan was om die leer oor terreine te deel onder 'n DSA en GDPR Artikel 89.

Met kolomverwydering slegs:

  • Vaste PII-kolomme: verwyder
  • Oop-teks-kolomme: rou gelaat
  • Bewering: 'PII-kolomme verwyder'
  • PII agtergelaat: 47 genoemde mense, 23 e-posadresse in kommentaar, 18 plekname wat respondente kan identifiseer

Met NLP-gebaseerde opsporing:

  • Vaste PII-kolomme: vervang met konsekwente tekens
  • Oop-teks-kolomme: 47 name vervang, 23 e-posse gemaskeer, 18 plekname generies gemaak ('Boston Medical Center' -> '[Gesondheidsinstelling]')
  • Resultaat: 'n leer wat GDPR Oorweging 26 slaag
  • Etieksraad het die metode goedgekeur
  • DPO het DSA-nakoming bevestig

Die leemte is werklik. Die eerste uitset lyk skoon. Die tweede uitset is skoon.

'n Vyfstap-voordelings-protokol

Gebruik hierdie stappe voor die deling van enige opname- of onderhoudleer.

Stap 1: Merk elke kolom Merk elke kolom as vaste PII, vaste nie-PII of oop-teks. Skryf dit neer.

Stap 2: Hanteer vaste PII Verwyder inskrywings wat nie vir analise benodig word nie. Vervang inskrywings wat nodig is vir rekordkoppeling. Teken die kodes gebruik.

Stap 3: Skandeer oop-teks-kolomme Loop NLP-opsporing op alle oop-teks-kolomme. Hersien elke resultaat. Bevestig watter werklike PII is.

Stap 4: Pas vervangings toe Vervang bevestigde PII in die oop-teks-uitset. Gebruik duidelike etikette soos [PERSOON], [E-POS] of [LIGGING].

Stap 5: Verifieer en dokumenteer Monstering 50-100 rye uit die uitset. Kontroleer die oop-teks-inskrywings met die hand. Skryf 'n kort opsomming: gereedskap gebruik, entiteitstipes gevind, kolomme verwerk. Deel dit saam met die leer vir etiekshersiening.

Dit verander 'ons het die naamkolom verwyder' in 'n duidelike, gedokumenteerde proses. Dit voldoen aan GDPR Artikel 89 en die anonimiseringstandaarde wat die meeste etieksrade vereis. Besoek ons dokumentasiesenter vir verwante gidse.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.