anonym.legal

By · Last updated 2026-06-05

Nazaj na blogGDPR in skladnost

OO v Prostem Besedilu CSV: Onkraj Brisanja Stolpcev

Ankete CSV vsebujejo OO ne le v strukturiranih stolpcih, temvec tudi v odgovorih prostega besedila. Standardno brisanje stolpcev zamudi OO, ki krsi GDPR.

June 5, 20267 min branja
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Vrzel, ki jo Brisanje Stolpcev Zamudi

Posodobljeno za leto 2026

Raziskovalne zbirke podatkov se med univerzami premikajo kot datoteke CSV. Ko ekipe pripravljajo CSV za deljenje, je delo temelji na stolpcih. Poiscite osebne podatke. Izbrisite jih ali zamenjajte.

Ta metoda deluje za fiksna polja. Stolpec z imenom "e-posta" vsebuje e-postne naslove -- izbrisi ga. Stolpec z imenom "telefon" vsebuje telefonske stevilke -- izbrisi ga. Stolpec z imenom "ime_udelezenca" vsebuje imena -- zamenjaj z kodo.

Toda stolpci z odgovori v prostem besedilu so slepa pega. Odstranjevanje oznacenih stolpcev jih ne dotakne.

Anketa s 5.000 vrsticami ima morda pet strukturiranih stolpcev OO in petnajst stolpcev z odgovori v odprtem besedilu. Strukturirani vsebujejo imena, e-poste, telefonske stevilke, ID-je in leta rojstva. Odprtih besedil vsebuje komentarje, opombe in predloge.

Strukturirani stolpci se ocistijo. Stolpci z odprtim besedilom ostanejo surovi. Toda ljudje pisejo stvari, kot so ti trije primeri.

Prvi: "Moj zdravnik v Bolnisnici Golnik, dr. Marija Kos, je rekla, da je zdravljenje novo." Drugi: "S tem se spopadam od svoje nesrece leta 2019." Tretji: "Za podrobnosti me lahko dosezete prek mojega negovalca na mojnegovalec@gmail.com."

Vsak vnos imenuje pravo osebo. Nekateri vkljucujejo zdravstvena dejstva ali kontaktne podatke. Nic od tega se ne pojavi v naslovu stolpca. Nic od tega ne ujame brisanje stolpcev.

Zakaj To ne Izpolnjuje Standarda GDPR

Uvodna navedba 26 GDPR opredeljuje anonimne zapise kot zapise, ki jih ni mogoce povezati z nobeno osebo. Meja je visoka. Zapisi so resnig anonimni le, ko ponovna identifikacija ni razumno mogoca.

CSV s cistimi fiksnimi stolpci, toda z imenovanimi osebami v odprtem besedilu, tega preizkusa ne prestane. Ta imena so prepoznavna. Zbirka podatkov je se vedno osebna. Pravila clena 89 GDPR se se vedno uporabljajo. Pojavijo se torej ta tri tveganja.

Izjema za raziskave po clenu 89: Clen 89 dovoljuje raziskovalcem obdelavo osebnih podatkov za znanost z manj obveznostmi. Toda samo kjer obstajajo "ustrezni zavarovalki". Deljenje datoteke z OO v odprtem besedilu ob sklicevanju na pokritje po clenu 89 je pravna napaka.

Odobritev eticnega odbora: Vecina IRB in eticnih odborov zahteva popolno anonimizacijo za deljene zbirke podatkov. Delno delo -- ocisceni fiksni stolpci, surovo odprto besedilo -- navadno ne uspe. Odbor lahko zavrne predlozitev.

Sporazumi o deljenju podatkov: DSA med institucijami dolocajo zahtevano raven anonimizacije. Delno delo, ki ne izpolnjuje uvodne navedbe 26 GDPR, lahko krsi DSA. Glejte nas pregled pravne skladnosti za to, kako se to vkljucuje v sirse program.

Zakaj Je Odprto Besedilo Tako Tezko Ocistiti

Odgovori ankete s prostim besedilom so med najtezjimi cilji OO. Tukaj je razlog.

Imena v kontekstu: "Dr. Marija Kos v Bolnisnici Golnik" zahteva prepoznavanje poimenovanih entitet (NER), da se oznaci oseba in organizacija. Seznami kljucnih besed tega ne morejo najti.

Imena v zgodbah: "Vozilo Jana Kovaca je zadelo moje" postavi pravo ime v zgodbo. Gre za osebo, omenjeno mimogrede. Samo NER ga ujame.

Nestandardni formati: Kontaktni podatki so morda napisani kot "dosezite me na marija pika kos pri gmail." Preprosta orodja regex tega zamudijo.

Izrazi specificni za raziskave: Klinicne ankete pogosto vsebujejo ID-je bolnisnic, sifre mest in krajevna imena. Ti lahko identificirajo osebo, tudi ce izgledajo splosno.

Torej samo ujemanje vzorcev ni dovolj. Za pravo anonimizacijo anket so potrebna orodja, ki temeljijo na NLP. Glejte Varnost in Skladnost za tehnicne moznosti.

Pravi Primer Treh Univerz

Raziskovalna ekipa na treh evropskih univerzah je izvedla anketo o izkusnjah pacientov. Zbirka podatkov je imela 5.000 anketirancev, 3 fiksne stolpce OO in 8 stolpcev z odprtim besedilom. Nacrt je bil deliti datoteko med mesti po DSA in clenu 89 GDPR.

Samo z brisanjem stolpcev:

  • Fiksni stolpci OO: odstranjeni
  • Stolpci z odprtim besedilom: ostali surovi
  • Trditev: "Stolpci OO izbrisani"
  • OO, ki je ostalo: 47 poimenovanih oseb, 23 e-postnih naslovov v komentarjih, 18 krajevnih imen, ki bi lahko identificirala anketirance

Z zaznavanjem na podlagi NLP:

  • Fiksni stolpci OO: zamenjani z doslednimi znaki
  • Stolpci z odprtim besedilom: 47 imen zamenjanih, 23 e-post zamaskiranih, 18 krajevnih imen sploscenih ("Bolnisnica Golnik" -> "[Zdravstvena Institucija]")
  • Rezultat: datoteka, ki prestane uvodno navedbo 26 GDPR
  • Eticni odbor je odobril metodo
  • DPO je potrdil skladnost z DSA

Vrzel je resnin. Prvi izhod izgleda cist. Drugi izhod je cist.

Petkoracni Protokol pred Deljenjem

Uporabite te korake, preden delite katero koli anketo ali datoteko intervjuja.

Korak 1: Oznacite vsak stolpec Vsak stolpec oznacite kot fiksni OO, fiksni ne-OO ali odprto besedilo. Zapisite to.

Korak 2: Obravnavajte fiksni OO Izbrisite vnose, ki niso potrebni za analizo. Zamenjajte vnose, potrebne za povezovanje zapisov. Zapisite uporabljene kode.

Korak 3: Skeniranje stolpcev z odprtim besedilom Na vseh stolpcih z odprtim besedilom zazenite zaznavanje NLP. Preglejte vsak rezultat. Potrdite, kateri so pravi OO.

Korak 4: Apliciranje zamenjav Zamenjajte potrjene OO v izhodu z odprtim besedilom. Uporabite jasne oznake, kot so [OSEBA], [E-POSTA] ali [LOKACIJA].

Korak 5: Preverite in dokumentirajte V izhodu vzorcno preglejte 50--100 vrstic. Preverite vnose z odprtim besedilom rocno. Napisite kratek povzetek: orodja, ki so bila uporabljena, najdene vrste entitet, obdelani stolpci. Delite ga z datoteko za pregled eticnega odbora.

To "izbrisali smo stolpec z imeni" pretvori v jasen, dokumentiran postopek. Izpolnjuje clen 89 GDPR in standarde anonimizacije, ki jih zahteva vecina eticnih odborov. Obisc ite nas center za dokumente za sorodne vodnike.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.