By · Last updated 2026-06-05

Atpakaļ uz BloguGDPR un Atbilstība

CSV brīvā teksta PII: tālāk par kolonnu dzēšanu

Aptaujas CSV faili satur PII ne tikai strukturētajās kolonnās, bet arī brīvā teksta atbildēs. Standarta kolonnu dzēšana palaiž garām PII, kas pārkāpj GDPR anonimizācijas standartu.

June 5, 20267 min lasīšanai
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Nepilnība, ko kolonnu dzēšana palaiž garām

Atjaunināts 2026. gadam

Pētijumu datu kopas pārvietojas starp universitātēm kā CSV faili. Kad komandas sagatavo CSV kopīgošanai, darbs ir balstīts uz kolonnām. Atrodiet personas informāciju. Dzēsiet vai aizstājiet to.

Šī metode darbojas fiksētajiem laukiem. Kolonna ar nosaukumu "e-pasts" glabā e-pasta adreses — dzēsiet to. Kolonna ar nosaukumu "tālrunis" glabā tālruņa numurus — dzēsiet to. Kolonna ar nosaukumu "dalibnieka_vārds" glabā vārdus — aizstājiet to ar kodu.

Bet brīvā teksta atbilžu kolonnas ir aklā zona. Marķētu kolonnu noņemšana tās neskar.

Aptauja ar 5 000 rindām var saturēt piecas strukturētās PII kolonnas un piecpadsmit atvērtā teksta atbilžu kolonnas. Strukturētajās glabājas vārdi, e-pasti, tālruņa numuri, ID un dzimšanas gadi. Atvērtā teksta glabājas komentāri, piezīmes un ieteikumi.

Strukturētās kolonnas tiek notīrītas. Atvērtā teksta kolonnas paliek neapstrādātas. Bet cilvēki raksta tādas lietas kā šie trīs piemēri.

Pirmais: "Mans ārsts no Boston Medical Center, Dr. Maria Santos, teica, ka ārstēšana ir jauna." Otrais: "Esmu ar to saskāries kopš 2019. gada negadijuma." Trešais: "Jūs varat sazināties ar manu aprūpētāju margaret.wells@gmail.com, lai iegūtu sīkāku informāciju."

Katrs ieraksts nosauc reālu personu. Daži ietver veselības faktus vai kontaktinformāciju. Nekas no tā neparādās kolonnas galvenē. Nekas no tā netiek notverts ar kolonnu dzēšanu.

Kāpēc tas neatbilst GDPR standartam

GDPR Recitāls 26 definē anonīmus ierakstus kā ierakstus, kurus nevar saistīt ar nevienu personu. Latiņa ir augsta. Ieraksti ir patiesi anonīmi tikai tad, kad atkārtota identifikācija nav saprātīgi iespējama.

CSV fails ar tīrām fiksētajām kolonnām, bet nosauktiem cilvēkiem atvērtajā tekstā, neiztur šo pārbaudi. Tie vārdi ir identificējami. Datu kopa joprojām ir personiska. GDPR 89. panta noteikumi joprojām attiecas. Tādejādi rodas trīs riski.

89. panta pētijumu izņēmums: 89. pants ļauj pētniekiem apstrādāt personisku informāciju zinātnei ar mazākiem pienākumiem. Bet tikai tur, kur pastāv "atbilstošas aizsardzības garantijas". Faila kopīgošana ar atvērtā teksta PII, apgalvojot 89. panta aizsardzību, ir juridiskā neveiksmiga.

Ētikas apstiprinājums: Lielākā daļa IRB un ētikas komiteju prasa pilnu anonimizāciju kopīgotajiem datu kopumiem. Daļējs darbs — fiksētas kolonnas notīrītas, atvērtais teksts palicis neapstrādāts — parasti neizdodas. Komiteja var noraidīt iesniegumu.

Datu kopīgošanas līgumi: DSA starp iestādēm nosaka nepieciešamo anonimizācijas līmeni. Daļējs darbs, kas neiztur GDPR Recitālu 26, var pārkāpt DSA. Skatiet mūsu Juridiskās atbilstības pārskatu par to, kā tas iederas plašākā programmā.

Kāpēc atvērtais teksts ir tik grūti notīrāms

Brīvā teksta aptaujas atbildes ir no grūtākajiem PII mērķiem. Lūk, kāpēc.

Vārdi kontekstā: "Dr. Maria Santos no Boston Medical Center" prasa nosaukto entītiju atpazīšanu (NER), lai atzīmētu personu un organizāciju. Atslēgvārdu saraksti to nevar atrast.

Vārdi stāstos: "Džona Hendersona auto trāpija manējo" ievieto reālu vārdu stāstā. Tā ir persona, kas nosaukta mimogus. Tikai NER to notverId.

Nestandarta formāti: Kontaktinformācija var lasīties "sazinieties ar mani pie margaret point wells pie gmail". Vienkāršie regex rīki to palaiž garām.

Pētijumam specifiskie termini: Klīniskās aptaujas bieži satur slimnīcas ID, vietas kodus un vietu vārdus. Tie var identificēt personu pat tad, kad izskatās vispārīgi.

Tādejādi tikai modeļu sakritība nav pietiekama. NLP balstīti rīki ir nepieciešami reālai aptaujas anonimizācijai. Skatiet Drošību un atbilstību par tehniskajām iespējām.

Reāls piemērs no trim universitātēm

Pētijumu komanda trim Eiropas universitātēs veica pacientu pieredzes aptauju. Datu kopā bija 5 000 respondentu, 3 fiksētās PII kolonnas un 8 atvērtā teksta kolonnas. Plāns bija kopīgot failu starp vietam saskaņā ar DSA un GDPR 89. pantu.

Ar tikai kolonnu dzēšanu:

  • Fiksētās PII kolonnas: noņemtas
  • Atvērtā teksta kolonnas: palika neapstrādātas
  • Apgalvojums: "PII kolonnas dzēstas"
  • Atstāts PII: 47 nosauktas personas, 23 e-pasta adreses komentāros, 18 vietu vārdi, kas varētu identificēt respondentus

Ar NLP balstītu noteikšanu:

  • Fiksētās PII kolonnas: aizstātas ar konsekventiem tokeneem
  • Atvērtā teksta kolonnas: 47 vārdi aizstāti, 23 e-pasti maskēti, 18 vietu vārdi vispārināti ("Boston Medical Center" → "[Veselības aprūpes iestāde]")
  • Rezultāts: fails, kas iztur GDPR Recitālu 26
  • Ētikas komiteja apstiprināja metodi
  • DPO apstiprināja DSA atbilstību

Nepilnība ir reāla. Pirmā izvade izskatās tīra. Otrā izvade ir tīra.

Piecu soļu protokols pirms kopīgošanas

Izmantojiet šos soļus pirms jebkuras aptaujas vai intervijas faila kopīgošanas.

1. solis: Marķējiet katru kolonnu Atzīmējiet katru kolonnu kā fiksētu PII, fiksētu ne-PII vai atvērtu tekstu. Pierakstiet to.

2. solis: Apstrādājiet fiksēto PII Dzēsiet ierakstus, kas nav nepieciešami analīzei. Aizstājiet ierakstus, kas nepieciešami ierakstu saistīšanai. Ierakstiet izmantotos kodus.

3. solis: Skenējiet atvērtā teksta kolonnas Palaidiet NLP noteikšanu visās atvērtā teksta kolonnās. Pārskatiet katru rezultātu. Apstipriniet, kuri ir reāls PII.

4. solis: Pielietojiet aizstāšanas Aizstājiet apstiprināto PII atvērtā teksta izvadē. Izmantojiet skaidras etiķetes, piemēram, [PERSONA], [E-PASTS] vai [ATRAŠANĀS VIETA].

5. solis: Verificējiet un dokumentējiet Paraugojiet 50–100 rindas no izvades. Pārbaudiet atvērtā teksta ierakstus ar roku. Uzrakstiet īsu kopsavilkumu: izmantotie rīki, atrastie entītiju veidi, apstrādātās kolonnas. Kopīgojiet to ar failu ētikas pārskatīšanai.

Tas pārvērš "mēs dzēsām vārdu kolonnu" par skaidru, dokumentētu procesu. Tas atbilst GDPR 89. pantam un anonimizācijas standartiem, ko prasa lielākā daļa ētikas komiteju. Apmeklējiet mūsu dokumentācijas centru par saistītajiem ceļvežiem.

Avoti

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.