anonym.legal

By · Last updated 2026-06-05

Înapoi la BlogGDPR & Conformitate

PII text liber în CSV: dincolo de ștergerea coloanelor

CSV-urile de sondaje conțin date cu caracter personal nu doar în coloanele structurate, ci și în răspunsurile de text liber. Ștergerea standard a coloanelor ratează PII care încalcă cerințele de anonimizare ale GDPR.

June 5, 20267 min citire
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Lacuna pe care ștergerea coloanelor o ratează

Actualizat pentru 2026

Seturile de date de cercetare circulă între universități ca fișiere CSV. Când echipele pregătesc un CSV pentru partajare, munca este bazată pe coloane. Găsiți informațiile personale. Ștergeți-le sau înlocuiți-le.

Acea metodă funcționează pentru câmpurile fixe. O coloană numită „email” conține adrese de email — ștergeți-o. O coloană numită „telefon” conține numere de telefon — ștergeți-o. O coloană numită „participant_name” conține nume — înlocuiți-o cu un cod.

Dar coloanele cu răspunsuri de text liber sunt un punct orb. Eliminarea coloanelor etichetate nu le atinge.

Un sondaj cu 5.000 de rânduri ar putea avea cinci coloane PII structurate și cincisprezece coloane cu răspunsuri open-text. Cele structurate conțin nume, emailuri, numere de telefon, ID-uri și ani de naștere. Cele open-text conțin comentarii, note și sugestii.

Coloanele structurate sunt curățate. Coloanele open-text rămân brute. Dar oamenii scriu lucruri precum aceste trei exemple.

Primul: „Medicul meu de la Boston Medical Center, Dr. Maria Santos, a spus că tratamentul era nou.” Al doilea: „Mă confrunt cu asta de la accidentul meu din 2019.” Al treilea: „Puteți contacta îngrijitoarea mea la margaret.wells@gmail.com pentru detalii.”

Fiecare intrare numește o persoană reală. Unele includ fapte medicale sau informații de contact. Nimic din aceasta nu apare într-un antet de coloană. Nimic din aceasta nu este prins de ștergerea coloanelor.

De ce aceasta nu respectă standardul GDPR

Considerentul 26 din GDPR definește înregistrările anonime ca înregistrări care nu pot fi legate de nicio persoană. Bara este ridicată. Înregistrările sunt cu adevărat anonime doar atunci când re-identificarea nu este rezonabil posibilă.

Un CSV cu coloane fixe curate, dar cu persoane numite în textul open-text, nu trece acest test. Acele nume sunt identificabile. Setul de date este în continuare personal. Regulile Articolului 89 GDPR se aplică în continuare. Astfel apar aceste trei riscuri.

Exceptia de cercetare Articolul 89: Articolul 89 permite cercetătorilor să prelucreze informații personale pentru știință cu mai puține obligații. Dar numai acolo unde există „garanții adecvate”. Partajarea unui fișier cu PII din textul open-text revendicând acoperirea Articolului 89 este un eșec juridic.

Aprobarea etică: Cele mai multe IRB-uri și comitete de etică necesită anonimizare completă pentru seturile de date partajate. Munca parțială — coloane fixe curățate, text open-text lăsat brut — eșuează de obicei. Comitetul poate respinge depunerea.

Acorduri de partajare a datelor: DSA-urile dintre instituții stabilesc nivelul de anonimizare necesar. Munca parțială care nu respectă Considerentul 26 GDPR poate încălca DSA. Consultați prezentarea noastră de conformitate juridică pentru cum se încadrează aceasta într-un program mai larg.

De ce textul open-text este atât de greu de curățat

Răspunsurile open-text la sondaje sunt printre cele mai dificile ținte PII. Iată de ce.

Nume în context: „Dr. Maria Santos la Boston Medical Center” necesită recunoașterea entităților cu denumire (NER) pentru a semnaliza o persoană și o organizație. Listele de cuvinte cheie nu pot găsi aceasta.

Nume în povestiri: „Mașina lui Ion Henderson a lovit-o pe a mea” pune un nume real în interiorul unei povestiri. Este o persoană menționată în treacăt. Doar NER o prinde.

Formate nestandard: Informațiile de contact pot citi „contactați-mă la margaret punct wells la gmail.” Instrumentele simple regex ratează acestea.

Termeni specifici cercetării: Sondajele clinice conțin adesea ID-uri de spital, coduri de site și denumiri de locuri. Acestea pot identifica o persoană chiar și atunci când par generice.

Astfel, potrivirea modelelor singură nu este suficientă. Instrumentele bazate pe NLP sunt necesare pentru anonimizarea reală a sondajelor. Consultați Securitate și Conformitate pentru opțiuni tehnice.

Un exemplu real de la trei universități

O echipă de cercetare de la trei universități europene a efectuat un sondaj de experiență a pacienților. Setul de date a avut 5.000 de respondenți, 3 coloane PII fixe și 8 coloane open-text. Planul era să partajeze fișierul între situri sub un DSA și GDPR Articolul 89.

Cu ștergerea coloanelor numai:

  • Coloane PII fixe: eliminate
  • Coloane open-text: lăsate brute
  • Afirmație: „Coloane PII șterse”
  • PII lăsate în urmă: 47 de persoane numite, 23 de adrese de email în comentarii, 18 denumiri de locuri care ar putea identifica respondenți

Cu detectarea bazată pe NLP:

  • Coloane PII fixe: înlocuite cu token-uri consistente
  • Coloane open-text: 47 de nume înlocuite, 23 de emailuri mascate, 18 denumiri de locuri generizate („Boston Medical Center” → „[Instituție Medicală]")
  • Rezultat: un fișier care trece Considerentul 26 GDPR
  • Comitetul de etică a aprobat metoda
  • DPO a confirmat conformitatea cu DSA

Lacuna este reală. Prima ieșire pare curată. A doua ieșire este curată.

Un protocol în cinci pași pre-partajare

Utilizați acești pași înainte de a partaja orice fișier de sondaj sau interviu.

Pasul 1: Etichetați fiecare coloană Marcați fiecare coloană ca PII fix, non-PII fix sau text open-text. Notați.

Pasul 2: Gestionați PII-ul fix Ștergeți intrările care nu sunt necesare pentru analiză. Înlocuiți intrările necesare pentru legarea înregistrărilor. Înregistrați codurile utilizate.

Pasul 3: Scanați coloanele open-text Rulați detectarea NLP pe toate coloanele open-text. Revizuiți fiecare rezultat. Confirmați care sunt PII real.

Pasul 4: Aplicați înlocuirile Înlocuiți PII-ul confirmat în ieșirea open-text. Utilizați etichete clare precum [PERSOANA], [EMAIL] sau [LOCATIE].

Pasul 5: Verificați și documentați Eșantionați 50–100 de rânduri din ieșire. Verificați intrările open-text manual. Scrieți un scurt rezumat: instrumente utilizate, tipuri de entități găsite, coloane procesate. Partajați-l cu fișierul pentru revizuire etică.

Aceasta transformă „am șters coloana de nume” într-un proces clar, documentat. Respectă GDPR Articolul 89 și standardele de anonimizare pe care le necesită cele mai multe comitete de etică. Vizitați centrul nostru de documentație pentru ghiduri conexe.

Surse

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.