anonym.legal

By · Last updated 2026-06-05

Povratak na blogGDPR i usklađenost

CSV slobodan tekst i PII: Vise od brisanja kolona

Ankete u CSV formatu sadrze PII ne samo u strukturisanim kolonama vec i u odgovorima slobodnog teksta. Standardno brisanje kolona propusta PII koji krsi GDPR zahteve za istrazivacke skupove podataka.

June 5, 20267 min čitanja
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Praznina koju brisanje kolona propusta

Azurirano za 2026. godinu

Istrazivacki skupovi podataka se premestu izmedju univerziteta kao CSV datoteke. Kada timovi pripremaju CSV za deljenje, rad je zasnovan na kolonama. Pronadjite licne podatke. Obrisite ili zamenite ih.

Ta metoda funkcionise za fiksna polja. Kolona nazvana "email" sadrzi email adrese — obrisite je. Kolona nazvana "telefon" sadrzi brojeve telefona — obrisite je. Kolona nazvana "ime_ucesnika" sadrzi imena — zamanite je sifrom.

Ali kolone sa odgovorima slobodnog teksta su slepa tacka. Uklanjanje obelezenih kolona ih ne dotice.

Anketa sa 5.000 redova moze imati pet strukturisanih PII kolona i petnaest kolona sa odgovorima otvorenog tipa. Strukturisane sadrze imena, emailove, brojeve telefona, ID-ove i godine rodjenja. Otvorene sadrze komentare, napomene i sugestije.

Strukturisane kolone se ciste. Kolone otvorenog tipa ostaju u sirovom stanju. Ali ljudi pisu stvari poput ova tri primera.

Prvo: "Moj lekar na Klinickom centru Srbije, dr Marija Savic, rekla je da je tretman nov." Drugo: "S ovim se suocavam od nezgode 2019. godine." Trece: "Mozete kontaktirati mog negovatelja na milena.markovic@gmail.com za detalje."

Svaki unos imenuje stvarnu osobu. Neki ukljucuju zdravstvene cinjenice ili kontakt informacije. Nista od ovoga se ne pojavljuje u zaglavlju kolone. Nista od ovoga nije uhvaceno brisanjem kolona.

Zasto ovo ne ispunjava GDPR standard

GDPR Recital 26 definise anonimne zapise kao zapise koji ne mogu biti povezani sa bilo kojom osobom. Letva je visoka. Zapisi su zaista anonimni samo kada ponovna identifikacija nije razumno moguca.

CSV sa cistim fiksnim kolonama ali imenovanim osobama u otvorenom tekstu ne prolazi taj test. Ta imena su prepoznatljiva. Skup podataka je i dalje licne prirode. Pravila GDPR clana 89 se i dalje primenjuju. Iz toga nastaju ova tri rizika.

Izuzetak za istrazivanje prema clanu 89: Clan 89 dozvoljava istrazivacima da obradjuju licne podatke za nauku sa manje obaveza. Ali samo gde "odgovarajuce zastite" postoje. Deljenje datoteke sa PII u otvorenom tekstu uz zahtev pokrica clana 89 je pravni propust.

Eticki odobravanje: Vecina IRB-ova i etickih komisija zahteva potpunu anonimizaciju za deljene skupove podataka. Delimican rad — strukturisane kolone ociscene, otvoreni tekst ostavljen sirov — tipicno ne prolazi. Komisija moze odbaciti podnesak.

Sporazumi o deljenju podataka: SDP izmedju institucija postavljaju zahtevani nivo anonimizacije. Delimican rad koji ne ispunjava GDPR Recital 26 moze nkrsiti SDP. Pogledajte nas pregled pravne uskladjenosti za to kako ovo uklapa u siri program.

Zasto je otvoreni tekst toliko tezak za ciscenje

Odgovori ankete slobodnog teksta su jedni od najtezih PII ciljeva. Evo zasto.

Imena u kontekstu: "Dr Marija Savic na Klinickom centru Srbije" zahteva prepoznavanje imenskih entiteta (NER) da bi se oznacila osoba i organizacija. Liste kljucnih reci ne mogu ovo pronaci.

Imena u pricama: "Kola Jovana Petrovica su udarila moje" stavlja stvarno ime unutar price. To je osoba nazvana uzgred. Samo NER to hvata.

Nestandardni formati: Kontakt informacije mogu glasiti "kontaktirajte me na milena tacka markovic na gmail." Jednostavni regex alati propustaju ovo.

Istrazivacko-specificni termini: Klinicke ankete cesto sadrze bolnicke ID-ove, sifre lokacija i nazive mesta. Ovi mogu identificirati osobu cak i kada izgledaju genericko.

Dakle samo podudaranje obrazaca nije dovoljno. Alati zasnovani na NLP-u su potrebni za stvarnu anonimizaciju anketa. Pogledajte Bezbednost i uskladjenost za tehnicke opcije.

Stvarni primer sa tri univerziteta

Istrazivacki tim na tri evropska univerziteta sproveo je anketu o iskustvima pacijenata. Skup podataka je imao 5.000 ispitanika, 3 fiksne PII kolone i 8 kolona otvorenog teksta. Plan je bio deliti datoteku izmedju sajtova pod SDP i GDPR clanom 89.

Samo brisanjem kolona:

  • Fiksne PII kolone: uklonjene
  • Kolone otvorenog teksta: ostavljene sirove
  • Tvrdnja: "PII kolone obrisane"
  • PII koji je ostao: 47 imenovanih osoba, 23 email adrese u komentarima, 18 naziva mesta koji bi mogli identifikovati ispitanike

Sa NLP-zasnovanom detekcijom:

  • Fiksne PII kolone: zamenjene konzistentnim tokenima
  • Kolone otvorenog teksta: 47 imena zamenjena, 23 emaila maskirana, 18 naziva mesta ucinjeno generickim ("Klinicki centar Srbije" → "[Zdravstvena ustanova]")
  • Rezultat: datoteka koja prolazi GDPR Recital 26
  • Eticka komisija odobrila metod
  • DPO potvrdio uskladjenost sa SDP

Praznina je stvarna. Prvi izlaz izgleda cisto. Drugi izlaz je zaista cist.

Petostepeni protokol pre deljenja

Koristite ove korake pre deljenja bilo koje ankete ili datoteke intervjua.

Korak 1: Oznacite svaku kolonu Oznacite svaku kolonu kao fiksni PII, fiksni non-PII ili otvoreni tekst. Zapisite to.

Korak 2: Obradite fiksni PII Obrisite unose koji nisu potrebni za analizu. Zamenite unose potrebne za povezivanje zapisa. Zabelezte koriscene sifre.

Korak 3: Skenirajte kolone otvorenog teksta Pokrenite NLP detekciju na svim kolonama otvorenog teksta. Pregledajte svaki rezultat. Potvrdite koji su zaista PII.

Korak 4: Primenite zamene Zamenite potvrdeni PII u izlazu otvorenog teksta. Koristite jasne oznake kao sto su [PERSON], [EMAIL] ili [LOCATION].

Korak 5: Verifikujte i dokumentujte Uzorkujte 50–100 redova iz izlaza. Proverite rucno unose otvorenog teksta. Napisite kratak sazetak: korisceni alati, pronadjeni tipovi entiteta, obradene kolone. Delite ga sa datotekom za eticku reviziju.

Ovo pretvara "obrisali smo kolonu s imenima" u jasan, dokumentovan proces. Ispunjava GDPR clan 89 i standarde anonimizacije koje veca etickih komisija zahteva. Posetite nas centar za dokumentaciju za srodne vodicee.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.