Lacuna pe care ștergerea coloanelor o ratează
Actualizat pentru 2026
Seturile de date de cercetare circulă între universități ca fișiere CSV. Când echipele pregătesc un CSV pentru partajare, munca este bazată pe coloane. Găsiți informațiile personale. Ștergeți-le sau înlocuiți-le.
Acea metodă funcționează pentru câmpurile fixe. O coloană numită „email” conține adrese de email — ștergeți-o. O coloană numită „telefon” conține numere de telefon — ștergeți-o. O coloană numită „participant_name” conține nume — înlocuiți-o cu un cod.
Dar coloanele cu răspunsuri de text liber sunt un punct orb. Eliminarea coloanelor etichetate nu le atinge.
Un sondaj cu 5.000 de rânduri ar putea avea cinci coloane PII structurate și cincisprezece coloane cu răspunsuri open-text. Cele structurate conțin nume, emailuri, numere de telefon, ID-uri și ani de naștere. Cele open-text conțin comentarii, note și sugestii.
Coloanele structurate sunt curățate. Coloanele open-text rămân brute. Dar oamenii scriu lucruri precum aceste trei exemple.
Primul: „Medicul meu de la Boston Medical Center, Dr. Maria Santos, a spus că tratamentul era nou.” Al doilea: „Mă confrunt cu asta de la accidentul meu din 2019.” Al treilea: „Puteți contacta îngrijitoarea mea la margaret.wells@gmail.com pentru detalii.”
Fiecare intrare numește o persoană reală. Unele includ fapte medicale sau informații de contact. Nimic din aceasta nu apare într-un antet de coloană. Nimic din aceasta nu este prins de ștergerea coloanelor.
De ce aceasta nu respectă standardul GDPR
Considerentul 26 din GDPR definește înregistrările anonime ca înregistrări care nu pot fi legate de nicio persoană. Bara este ridicată. Înregistrările sunt cu adevărat anonime doar atunci când re-identificarea nu este rezonabil posibilă.
Un CSV cu coloane fixe curate, dar cu persoane numite în textul open-text, nu trece acest test. Acele nume sunt identificabile. Setul de date este în continuare personal. Regulile Articolului 89 GDPR se aplică în continuare. Astfel apar aceste trei riscuri.
Exceptia de cercetare Articolul 89: Articolul 89 permite cercetătorilor să prelucreze informații personale pentru știință cu mai puține obligații. Dar numai acolo unde există „garanții adecvate”. Partajarea unui fișier cu PII din textul open-text revendicând acoperirea Articolului 89 este un eșec juridic.
Aprobarea etică: Cele mai multe IRB-uri și comitete de etică necesită anonimizare completă pentru seturile de date partajate. Munca parțială — coloane fixe curățate, text open-text lăsat brut — eșuează de obicei. Comitetul poate respinge depunerea.
Acorduri de partajare a datelor: DSA-urile dintre instituții stabilesc nivelul de anonimizare necesar. Munca parțială care nu respectă Considerentul 26 GDPR poate încălca DSA. Consultați prezentarea noastră de conformitate juridică pentru cum se încadrează aceasta într-un program mai larg.
De ce textul open-text este atât de greu de curățat
Răspunsurile open-text la sondaje sunt printre cele mai dificile ținte PII. Iată de ce.
Nume în context: „Dr. Maria Santos la Boston Medical Center” necesită recunoașterea entităților cu denumire (NER) pentru a semnaliza o persoană și o organizație. Listele de cuvinte cheie nu pot găsi aceasta.
Nume în povestiri: „Mașina lui Ion Henderson a lovit-o pe a mea” pune un nume real în interiorul unei povestiri. Este o persoană menționată în treacăt. Doar NER o prinde.
Formate nestandard: Informațiile de contact pot citi „contactați-mă la margaret punct wells la gmail.” Instrumentele simple regex ratează acestea.
Termeni specifici cercetării: Sondajele clinice conțin adesea ID-uri de spital, coduri de site și denumiri de locuri. Acestea pot identifica o persoană chiar și atunci când par generice.
Astfel, potrivirea modelelor singură nu este suficientă. Instrumentele bazate pe NLP sunt necesare pentru anonimizarea reală a sondajelor. Consultați Securitate și Conformitate pentru opțiuni tehnice.
Un exemplu real de la trei universități
O echipă de cercetare de la trei universități europene a efectuat un sondaj de experiență a pacienților. Setul de date a avut 5.000 de respondenți, 3 coloane PII fixe și 8 coloane open-text. Planul era să partajeze fișierul între situri sub un DSA și GDPR Articolul 89.
Cu ștergerea coloanelor numai:
- Coloane PII fixe: eliminate
- Coloane open-text: lăsate brute
- Afirmație: „Coloane PII șterse”
- PII lăsate în urmă: 47 de persoane numite, 23 de adrese de email în comentarii, 18 denumiri de locuri care ar putea identifica respondenți
Cu detectarea bazată pe NLP:
- Coloane PII fixe: înlocuite cu token-uri consistente
- Coloane open-text: 47 de nume înlocuite, 23 de emailuri mascate, 18 denumiri de locuri generizate („Boston Medical Center” → „[Instituție Medicală]")
- Rezultat: un fișier care trece Considerentul 26 GDPR
- Comitetul de etică a aprobat metoda
- DPO a confirmat conformitatea cu DSA
Lacuna este reală. Prima ieșire pare curată. A doua ieșire este curată.
Un protocol în cinci pași pre-partajare
Utilizați acești pași înainte de a partaja orice fișier de sondaj sau interviu.
Pasul 1: Etichetați fiecare coloană Marcați fiecare coloană ca PII fix, non-PII fix sau text open-text. Notați.
Pasul 2: Gestionați PII-ul fix Ștergeți intrările care nu sunt necesare pentru analiză. Înlocuiți intrările necesare pentru legarea înregistrărilor. Înregistrați codurile utilizate.
Pasul 3: Scanați coloanele open-text Rulați detectarea NLP pe toate coloanele open-text. Revizuiți fiecare rezultat. Confirmați care sunt PII real.
Pasul 4: Aplicați înlocuirile
Înlocuiți PII-ul confirmat în ieșirea open-text. Utilizați etichete clare precum [PERSOANA], [EMAIL] sau [LOCATIE].
Pasul 5: Verificați și documentați Eșantionați 50–100 de rânduri din ieșire. Verificați intrările open-text manual. Scrieți un scurt rezumat: instrumente utilizate, tipuri de entități găsite, coloane procesate. Partajați-l cu fișierul pentru revizuire etică.
Aceasta transformă „am șters coloana de nume” într-un proces clar, documentat. Respectă GDPR Articolul 89 și standardele de anonimizare pe care le necesită cele mai multe comitete de etică. Vizitați centrul nostru de documentație pentru ghiduri conexe.
Surse
- GDPR Articolul 89: Garanții pentru cercetarea științifică — VERIFICAT EXTERN
- GDPR Considerentul 26: Principiul anonimizării — VERIFICAT EXTERN
- ICO: Anonimizare și riscul protecției datelor — VERIFICAT EXTERN