Problema Consistentei Anonimizarii ML
DPO-ul a aprobat documentul procedurii de anonimizare. Acesta specifica: eliminati numele, emailurile, numerele de telefon si datele de nastere din seturile de date de antrenament folosind metoda Inlocuire. Documentul are 4 pagini si se afla in wiki-ul de conformitate.
Doisprezece oameni de stiinta a datelor il consulta la inceputul proiectului. Isi configureaza propriile versiuni ale instrumentului de anonimizare. Unii adauga identificatori nationali. Unii includ adrese IP. Unii folosesc Redactare in loc de Inlocuire. Trei luni mai tarziu, seturile de date de antrenament sunt inconsistente.
De Ce Inconsistenta Conteaza Legal
CNIL a investigat mai multe companii AI in 2024 pentru utilizarea necorespunzatoare a datelor personale in seturile de date de antrenament. Investigatiile au examinat nu doar daca anonimizarea a avut loc, ci cat de consecvent a fost aplicata.
Constatarile specifice:
- Anonimizarea aplicata inconsistent intre echipe creeaza seturi de date de antrenament eterogene
- Unele inregistrari din setul de date pot contine PII in timp ce altele nu, in functie de cine le-a procesat
- Auditarea inconsistentei anonimizarii necesita re-examinarea fiecarei inregistrari individual
Solutia Presetarii: Configurare Partajata, nu Documentatie Partajata
O presetare de anonimizare este o configurare salvata care specifica:
- Tipuri de entitati de detectat (PERSON, EMAIL_ADDRESS, PHONE_NUMBER, DATE_OF_BIRTH, NATIONAL_ID etc.)
- Metoda de anonimizare per tip de entitate (Inlocuire, Redactare, Hash, Criptare)
- Limba(ile) de detectat
- Scorul minim de incredere
Cand presetarea 'ML-Training-GDPR-v2' este partajata cu cei 12 oameni de stiinta a datelor, toti aplica exact aceeasi configuratie. Inconsistenta este eliminata tehnic, nu procedural.
Avantajul Auditabilitatii
Organizatiile cu cerinte de audit pot demonstra:
- Toti membrii echipei au folosit versiunea presetarii 'ML-Training-GDPR-v2'
- Configuratia presetarii a ramas neschimbata pe durata perioadei de antrenament
- Jurnalul de audit documenteaza fiecare operatiune de anonimizare cu ID-ul presetarii
Surse: Investigatia CNIL privind Companiile AI 2024; Ghidul EDPB privind Datele de Antrenament AI 2025; Orientarile Tehnice de Conformitate GDPR ISO/IEC 27701:2019