anonym.legal
Înapoi la BlogTehnic

Confidentialitate Reproductibila: De Ce Echipele ML au Nevoie de Presetari de Configurare, nu doar de Documentatie

Anonimizarea datelor de antrenament ML trebuie sa fie consistenta si reproductibila. Daca oamenii de date A si B aplica tipuri diferite de entitati, seturile de date de antrenament sunt inconsistente. CNIL a investigat companii AI in 2024 pentru utilizarea necorespunzatoare a datelor de antrenament. Presetarile sunt solutia tehnica.

March 12, 20266 min citire
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Problema Consistentei Anonimizarii ML

DPO-ul a aprobat documentul procedurii de anonimizare. Acesta specifica: eliminati numele, emailurile, numerele de telefon si datele de nastere din seturile de date de antrenament folosind metoda Inlocuire. Documentul are 4 pagini si se afla in wiki-ul de conformitate.

Doisprezece oameni de stiinta a datelor il consulta la inceputul proiectului. Isi configureaza propriile versiuni ale instrumentului de anonimizare. Unii adauga identificatori nationali. Unii includ adrese IP. Unii folosesc Redactare in loc de Inlocuire. Trei luni mai tarziu, seturile de date de antrenament sunt inconsistente.

CNIL a investigat mai multe companii AI in 2024 pentru utilizarea necorespunzatoare a datelor personale in seturile de date de antrenament. Investigatiile au examinat nu doar daca anonimizarea a avut loc, ci cat de consecvent a fost aplicata.

Constatarile specifice:

  • Anonimizarea aplicata inconsistent intre echipe creeaza seturi de date de antrenament eterogene
  • Unele inregistrari din setul de date pot contine PII in timp ce altele nu, in functie de cine le-a procesat
  • Auditarea inconsistentei anonimizarii necesita re-examinarea fiecarei inregistrari individual

Solutia Presetarii: Configurare Partajata, nu Documentatie Partajata

O presetare de anonimizare este o configurare salvata care specifica:

  • Tipuri de entitati de detectat (PERSON, EMAIL_ADDRESS, PHONE_NUMBER, DATE_OF_BIRTH, NATIONAL_ID etc.)
  • Metoda de anonimizare per tip de entitate (Inlocuire, Redactare, Hash, Criptare)
  • Limba(ile) de detectat
  • Scorul minim de incredere

Cand presetarea 'ML-Training-GDPR-v2' este partajata cu cei 12 oameni de stiinta a datelor, toti aplica exact aceeasi configuratie. Inconsistenta este eliminata tehnic, nu procedural.

Avantajul Auditabilitatii

Organizatiile cu cerinte de audit pot demonstra:

  • Toti membrii echipei au folosit versiunea presetarii 'ML-Training-GDPR-v2'
  • Configuratia presetarii a ramas neschimbata pe durata perioadei de antrenament
  • Jurnalul de audit documenteaza fiecare operatiune de anonimizare cu ID-ul presetarii

Surse: Investigatia CNIL privind Companiile AI 2024; Ghidul EDPB privind Datele de Antrenament AI 2025; Orientarile Tehnice de Conformitate GDPR ISO/IEC 27701:2019

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.