Confidențialitate reproductibilă: de ce echipele ML au nevoie de presetări, nu doar de documente
DPO-ul a aprobat planul de anonimizare. Acoperă patru elemente: nume, emailuri, numere de telefon și date de naștere. Metoda este Înlocuire. Planul are patru pagini și se află în wiki-ul de conformitate.
Doisprezece oameni de știință în date l-au citit la kickoff. Fiecare și-a configurat instrumentul pe cont propriu. Unii adaugă ID-uri naționale. Unii adaugă adrese IP. Unii trec la Redact. Trei luni mai târziu, seturile nu sunt consecvente.
CNIL a verificat mai multe firme de IA în 2024. Problema: utilizarea inadecvată a detaliilor personale în seturile de modele. Nu au întrebat doar dacă anonimizarea a avut loc. Au întrebat cât de consecvent a fost aplicată.
Documentele sunt necesare. Nu sunt suficiente. Soluția este presetarea.
De ce seturile de modele ML necesită propria configurare
Constituirea seturilor de modele are nevoi unice. Anonimizarea generală a documentelor nu le împărtășește.
Înlocuire, nu Redact. Modelele antrenate pe text în care numele devin [REDACTED] învață acel token ca marker de poziție a numelui. Acest lucru afectează modelul. Înlocuirea schimbă „Ion Popescu" cu „David Chen". Modelul vede tipare reale de nume. Nu vede un token de mască.
Același proces pentru toate înregistrările. Un set în care 70% din nume sunt înlocuite și 30% sunt [REDACTED] trimite semnale mixte. Fiecare înregistrare trebuie să treacă prin aceiași pași.
Aceeași listă de entități. Dacă setul conține date de sănătate, eliminarea numelor dar lăsarea datelor de naștere în unele înregistrări creează lacune. Toți cei doisprezece oameni de știință în date trebuie să elimine aceleași tipuri.
Fără supraeliminare. Eliminarea datelor care sunt marcaje temporale — nu date de naștere — reduce calitatea setului fără niciun câștig de conformitate. Presetarea aprobată specifică exact ce elemente trebuie eliminate.
Rezultate repetabile. Dacă un set trebuie rulat din nou — să zicem, după ce se descoperă un tip de entitate omis — presetarea oferă același rezultat de fiecare dată. Configurările ad-hoc nu oferă.
Problema celor doisprezece oameni de știință în date
O echipă ML fintech din Europa folosește seturi din jurnalele de clienți. DPO-ul a aprobat scopul — detectarea fraudei — cu o singură regulă: toate numele clienților, emailurile, numerele de telefon și ID-urile de plată trebuie înlocuite înainte ca munca pe modele să înceapă.
Fără presetări:
- Persoana 1 elimină numele, emailurile și numerele de telefon — dar ratează ID-urile de plată
- Persoana 2 include ID-urile de plată dar folosește Redact, nu Înlocuire
- Persoana 3 urmează documentul planului exact
- Persoanele 4–12 variază
Setul combinat este parțial neconform și parțial supra-procesat. Un DPO nu îl poate certifica.
Cu o presetare aprobată de DPO:
- DPO-ul creează „Dezvoltare ML — Detectare fraudă" cu tipuri exacte de entități și metoda Înlocuire
- Presetarea merge la toți cei doisprezece cu o singură regulă: folosiți-o pentru toată munca pe seturi
- Nimeni nu poate modifica presetarea fără aprobarea DPO
Fiecare persoană produce acum același rezultat. Setul combinat este consecvent. Auditul anual AI trece cu zero constatări. Anul anterior avusese trei constatări din munca inconsistentă pe seturi.
GDPR și Legea IA
Actualizat pentru 2026
Legea UE privind IA a intrat pe deplin în vigoare în august 2024. Adaugă reguli pentru sistemele IA care utilizează detalii personale pentru munca pe modele. Sistemele IA cu risc ridicat trebuie să documenteze seturile lor, inclusiv ce anonimizare a fost aplicată.
Articolul 5(1)(b) din GDPR — regula privind limitarea scopului — blochează utilizarea detaliilor personale fără o bază juridică clară. Cazurile CNIL din 2024 s-au concentrat pe această lacună: detalii colectate pentru un serviciu utilizate pentru munca pe modele fără nicio bază validă sau anonimizare.
Presetările ajută la satisfacerea ambelor seturi de reguli:
- Numele presetării și configurarea: metoda documentată
- Jurnalele de procesare: dovada că metoda a fost aplicată
- Aprobarea DPO: o înregistrare a semnăturii de aprobare pe configurare
Aceasta creează trasabilitatea auditului pe care ambele legi o impun. Pentru obligațiile Articolului 10 în detaliu, consultați ghidul privind datele de antrenare conform Legii UE privind IA.
Configurarea presetărilor pentru seturile de modele NLP
Tipuri de inclus în majoritatea seturilor de modele NLP:
- PERSOANĂ — Înlocuiește cu nume similare
- ADRESĂ_EMAIL — Înlocuiește cu adrese sintetice
- NUMĂR_TELEFON — Înlocuiește cu numere sintetice
- CARD_CREDIT / IBAN — Înlocuiește sau Redact
- LOCAȚIE — Înlocuiește cu locuri similare dacă locația contează; Redact dacă nu
- DATA_NAȘTERII — Redact; gruparea pe vârstă este adesea necesară
Tipuri adesea excluse:
- Date generale — marcajele temporale ajută modelele temporale
- Nume de organizații — ajută modelele de entități denumite
- URL-uri — ajută modelele de linkuri și referințe
Liderul ML și DPO stabilesc aceste reguli în presetarea aprobată. Membrii echipei o aplică. Ei nu fac alegeri de configurare.
Presetările ca memorie instituțională
Înainte de presetări. Configurarea corectă a entităților se afla în mintea a trei oameni de știință în date. Aceștia lucraseră prin revizuirea de conformitate. Doi au plecat în T3. Cunoștințele au plecat cu ei.
După presetări. Configurarea se află în „Dezvoltare ML — Dosare clienți v2.1". Jurnalul de versiuni arată când a fost creată, cine a aprobat-o și ce s-a schimbat față de v2.0. Noii membri ai echipei folosesc presetarea și accesează toate cunoștințele construite în ea.
Versiunea 2.1 a adăugat detectarea IBAN după ce o revizuire a descoperit că lipsea. Versiunea 2.0 a fost aprobată în februarie 2025. Jurnalul este complet.
Pentru modul în care jurnalele de procesare și fluxurile de revizuire ale DPO funcționează, consultați ghidul de anonimizare a datelor de antrenare ML conform GDPR.
Presetările față de tiparul CNIL
Cazurile IA ale CNIL din 2024 stabilesc un tipar clar. Aceștia nu întreabă doar ce a fost eliminat, ci și cum a fost guvernat. O presetare partajată cu o înregistrare de aprobare a DPO și jurnale de procesare răspunde direct la aceasta.
O configurare ad-hoc nu răspunde. Aceeași lacună există în alte cazuri ale APD-urilor UE care urmează logica CNIL. Pentru mai multe informații despre abordarea CNIL privind IA, consultați ghidul de conformitate GDPR IA al CNIL.
Concluzie
Documentele spun membrilor echipei ce să facă. Presetările fac ușor — și aplicabil — să faci același lucru de fiecare dată.
Pentru seturile de modele ML, consecvența este atât o necesitate juridică, cât și una tehnică. Presetarea satisface ambele simultan.
APD-urile care se uită la practicile IA doresc dovezi ale anonimizării uniforme. O presetare aplicată în același mod în toate lucrările pe seturi este cea mai clară dovadă pe care o poți oferi.