Problema PII Structural vs. Text Liber
Datele de cercetare partajate intre institutii academice calatoresc cel mai frecvent in format CSV. Cand cercetatorii pregatesc CSV-uri pentru partajare, lista de verificare standard de anonimizare este bazata pe coloane: identificati coloanele care contin date personale, stergeti sau pseudonimizati acele coloane.
Aceasta abordare gestioneaza PII structural in mod fiabil. Coloana numita 'email' contine adrese de email — stergeti-o. Coloana numita 'telefon' contine numere de telefon — stergeti-o.
Ce rateaza abordarea de stergere a coloanei: PII integrat in coloanele de raspuns de text liber.
Un set de date de sondaj cu 5.000 de randuri si 20 de coloane ar putea avea:
- 5 coloane PII structurate (nume, email, telefon, ID, an nastere)
- 15 coloane de raspunsuri de text liber ('comentarii_suplimentare', 'descriere_experienta', 'ce_ar_imbunatati')
Randurile structurate sunt curatate prin stergerea coloanelor. Coloanele de text liber sunt lasate ca atare. Dar respondentii la sondaj scriu lucruri precum:
- 'Medicul meu la Spitalul Universitar, Dr. Maria Ionescu, a spus ca tratamentul era experimental'
- 'Puteti contacta ingrijitorul meu la maria.ionescu@gmail.com daca aveti nevoie de mai multe informatii'
Solutia: Scanarea Campurilor de Text Liber
Solutia este scanarea PII a coloanelor de text liber inainte de partajarea seturilor de date:
- Procesati fiecare celula din fiecare coloana de text liber prin detectia PII
- Identificati si etichetati entitatile (PERSON, EMAIL_ADDRESS, PHONE_NUMBER)
- Aplicati anonimizarea: inlocuiti cu etichete categorice sau pseudonimizati
- Produceti CSV curatat pentru partajare
Surse: Cerinte IRB privind Anonimizarea Seturilor de Date de Cercetare; Orientarile CNIL privind Cercetarea si GDPR 2024; Standardele de Partajare a Datelor EDPB