Lacuna pe care ștergerea coloanelor o ratează

Actualizat pentru 2026

Seturile de date de cercetare circulă între universități ca fișiere CSV. Când echipele pregătesc un CSV pentru partajare, munca este bazată pe coloane. Găsiți informațiile personale. Ștergeți-le sau înlocuiți-le.

Acea metodă funcționează pentru câmpurile fixe. O coloană numită „email” conține adrese de email — ștergeți-o. O coloană numită „telefon” conține numere de telefon — ștergeți-o. O coloană numită „participant_name” conține nume — înlocuiți-o cu un cod.

Dar coloanele cu răspunsuri de text liber sunt un punct orb. Eliminarea coloanelor etichetate nu le atinge.

Un sondaj cu 5.000 de rânduri ar putea avea cinci coloane PII structurate și cincisprezece coloane cu răspunsuri open-text. Cele structurate conțin nume, emailuri, numere de telefon, ID-uri și ani de naștere. Cele open-text conțin comentarii, note și sugestii.

Coloanele structurate sunt curățate. Coloanele open-text rămân brute. Dar oamenii scriu lucruri precum aceste trei exemple.

Primul: „Medicul meu de la Boston Medical Center, Dr. Maria Santos, a spus că tratamentul era nou.” Al doilea: „Mă confrunt cu asta de la accidentul meu din 2019.” Al treilea: „Puteți contacta îngrijitoarea mea la margaret.wells@gmail.com pentru detalii.”

Fiecare intrare numește o persoană reală. Unele includ fapte medicale sau informații de contact. Nimic din aceasta nu apare într-un antet de coloană. Nimic din aceasta nu este prins de ștergerea coloanelor.

Considerentul 26 din GDPR definește înregistrările anonime ca înregistrări care nu pot fi legate de nicio persoană. Bara este ridicată. Înregistrările sunt cu adevărat anonime doar atunci când re-identificarea nu este rezonabil posibilă.

Un CSV cu coloane fixe curate, dar cu persoane numite în textul open-text, nu trece acest test. Acele nume sunt identificabile. Setul de date este în continuare personal. Regulile Articolului 89 GDPR se aplică în continuare. Astfel apar aceste trei riscuri.

Exceptia de cercetare Articolul 89: Articolul 89 permite cercetătorilor să prelucreze informații personale pentru știință cu mai puține obligații. Dar numai acolo unde există „garanții adecvate”. Partajarea unui fișier cu PII din textul open-text revendicând acoperirea Articolului 89 este un eșec juridic.

Aprobarea etică: Cele mai multe IRB-uri și comitete de etică necesită anonimizare completă pentru seturile de date partajate. Munca parțială — coloane fixe curățate, text open-text lăsat brut — eșuează de obicei. Comitetul poate respinge depunerea.

Acorduri de partajare a datelor: DSA-urile dintre instituții stabilesc nivelul de anonimizare necesar. Munca parțială care nu respectă Considerentul 26 GDPR poate încălca DSA. Consultați prezentarea noastră de conformitate juridică pentru cum se încadrează aceasta într-un program mai larg.

De ce textul open-text este atât de greu de curățat

Răspunsurile open-text la sondaje sunt printre cele mai dificile ținte PII. Iată de ce.

Nume în context: „Dr. Maria Santos la Boston Medical Center” necesită recunoașterea entităților cu denumire (NER) pentru a semnaliza o persoană și o organizație. Listele de cuvinte cheie nu pot găsi aceasta.

Nume în povestiri: „Mașina lui Ion Henderson a lovit-o pe a mea” pune un nume real în interiorul unei povestiri. Este o persoană menționată în treacăt. Doar NER o prinde.

Formate nestandard: Informațiile de contact pot citi „contactați-mă la margaret punct wells la gmail.” Instrumentele simple regex ratează acestea.

Termeni specifici cercetării: Sondajele clinice conțin adesea ID-uri de spital, coduri de site și denumiri de locuri. Acestea pot identifica o persoană chiar și atunci când par generice.

Astfel, potrivirea modelelor singură nu este suficientă. Instrumentele bazate pe NLP sunt necesare pentru anonimizarea reală a sondajelor. Consultați Securitate și Conformitate pentru opțiuni tehnice.

Un exemplu real de la trei universități

O echipă de cercetare de la trei universități europene a efectuat un sondaj de experiență a pacienților. Setul de date a avut 5.000 de respondenți, 3 coloane PII fixe și 8 coloane open-text. Planul era să partajeze fișierul între situri sub un DSA și GDPR Articolul 89.

Cu ștergerea coloanelor numai:

Coloane PII fixe: eliminate
Coloane open-text: lăsate brute
Afirmație: „Coloane PII șterse”
PII lăsate în urmă: 47 de persoane numite, 23 de adrese de email în comentarii, 18 denumiri de locuri care ar putea identifica respondenți

Cu detectarea bazată pe NLP:

Coloane PII fixe: înlocuite cu token-uri consistente
Coloane open-text: 47 de nume înlocuite, 23 de emailuri mascate, 18 denumiri de locuri generizate („Boston Medical Center” → „[Instituție Medicală]")
Rezultat: un fișier care trece Considerentul 26 GDPR
Comitetul de etică a aprobat metoda
DPO a confirmat conformitatea cu DSA

Lacuna este reală. Prima ieșire pare curată. A doua ieșire este curată.

Un protocol în cinci pași pre-partajare

Utilizați acești pași înainte de a partaja orice fișier de sondaj sau interviu.

Pasul 1: Etichetați fiecare coloană Marcați fiecare coloană ca PII fix, non-PII fix sau text open-text. Notați.

Pasul 2: Gestionați PII-ul fix Ștergeți intrările care nu sunt necesare pentru analiză. Înlocuiți intrările necesare pentru legarea înregistrărilor. Înregistrați codurile utilizate.

Pasul 3: Scanați coloanele open-text Rulați detectarea NLP pe toate coloanele open-text. Revizuiți fiecare rezultat. Confirmați care sunt PII real.

Pasul 4: Aplicați înlocuirile Înlocuiți PII-ul confirmat în ieșirea open-text. Utilizați etichete clare precum [PERSOANA], [EMAIL] sau [LOCATIE].

Pasul 5: Verificați și documentați Eșantionați 50–100 de rânduri din ieșire. Verificați intrările open-text manual. Scrieți un scurt rezumat: instrumente utilizate, tipuri de entități găsite, coloane procesate. Partajați-l cu fișierul pentru revizuire etică.

Aceasta transformă „am șters coloana de nume” într-un proces clar, documentat. Respectă GDPR Articolul 89 și standardele de anonimizare pe care le necesită cele mai multe comitete de etică. Vizitați centrul nostru de documentație pentru ghiduri conexe.

Surse

GDPR Articolul 89: Garanții pentru cercetarea științifică — VERIFICAT EXTERN
GDPR Considerentul 26: Principiul anonimizării — VERIFICAT EXTERN
ICO: Anonimizare și riscul protecției datelor — VERIFICAT EXTERN

Articole Asemănătoare

GDPR & Conformitate

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

Începeți Proba Gratuită Vizualizați Funcționalitățile

PII text liber în CSV: dincolo de ștergerea coloanelor

Lacuna pe care ștergerea coloanelor o ratează

De ce textul open-text este atât de greu de curățat

Un exemplu real de la trei universități

Un protocol în cinci pași pre-partajare

Surse

Articole Asemănătoare

Instrumentele PII auto-găzduite eșuează la auditurile de conformitate

Presidio ratează 220+ entități GDPR

Deriva configurației: un risc ascuns GDPR

Pregătit să vă protejați datele?

PII text liber în CSV: dincolo de ștergerea coloanelor

Lacuna pe care ștergerea coloanelor o ratează

De ce aceasta nu respectă standardul GDPR

De ce textul open-text este atât de greu de curățat

Un exemplu real de la trei universități

Un protocol în cinci pași pre-partajare

Surse

Articole Asemănătoare

Instrumentele PII auto-găzduite eșuează la auditurile de conformitate

Presidio ratează 220+ entități GDPR

Deriva configurației: un risc ascuns GDPR

Pregătit să vă protejați datele?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow