Confidențialitate reproductibilă: de ce echipele ML au nevoie de presetări, nu doar de documente

DPO-ul a aprobat planul de anonimizare. Acoperă patru elemente: nume, emailuri, numere de telefon și date de naștere. Metoda este Înlocuire. Planul are patru pagini și se află în wiki-ul de conformitate.

Doisprezece oameni de știință în date l-au citit la kickoff. Fiecare și-a configurat instrumentul pe cont propriu. Unii adaugă ID-uri naționale. Unii adaugă adrese IP. Unii trec la Redact. Trei luni mai târziu, seturile nu sunt consecvente.

CNIL a verificat mai multe firme de IA în 2024. Problema: utilizarea inadecvată a detaliilor personale în seturile de modele. Nu au întrebat doar dacă anonimizarea a avut loc. Au întrebat cât de consecvent a fost aplicată.

Documentele sunt necesare. Nu sunt suficiente. Soluția este presetarea.

De ce seturile de modele ML necesită propria configurare

Constituirea seturilor de modele are nevoi unice. Anonimizarea generală a documentelor nu le împărtășește.

Înlocuire, nu Redact. Modelele antrenate pe text în care numele devin [REDACTED] învață acel token ca marker de poziție a numelui. Acest lucru afectează modelul. Înlocuirea schimbă „Ion Popescu" cu „David Chen". Modelul vede tipare reale de nume. Nu vede un token de mască.

Același proces pentru toate înregistrările. Un set în care 70% din nume sunt înlocuite și 30% sunt [REDACTED] trimite semnale mixte. Fiecare înregistrare trebuie să treacă prin aceiași pași.

Aceeași listă de entități. Dacă setul conține date de sănătate, eliminarea numelor dar lăsarea datelor de naștere în unele înregistrări creează lacune. Toți cei doisprezece oameni de știință în date trebuie să elimine aceleași tipuri.

Fără supraeliminare. Eliminarea datelor care sunt marcaje temporale — nu date de naștere — reduce calitatea setului fără niciun câștig de conformitate. Presetarea aprobată specifică exact ce elemente trebuie eliminate.

Rezultate repetabile. Dacă un set trebuie rulat din nou — să zicem, după ce se descoperă un tip de entitate omis — presetarea oferă același rezultat de fiecare dată. Configurările ad-hoc nu oferă.

Problema celor doisprezece oameni de știință în date

O echipă ML fintech din Europa folosește seturi din jurnalele de clienți. DPO-ul a aprobat scopul — detectarea fraudei — cu o singură regulă: toate numele clienților, emailurile, numerele de telefon și ID-urile de plată trebuie înlocuite înainte ca munca pe modele să înceapă.

Fără presetări:

Persoana 1 elimină numele, emailurile și numerele de telefon — dar ratează ID-urile de plată
Persoana 2 include ID-urile de plată dar folosește Redact, nu Înlocuire
Persoana 3 urmează documentul planului exact
Persoanele 4–12 variază

Setul combinat este parțial neconform și parțial supra-procesat. Un DPO nu îl poate certifica.

Cu o presetare aprobată de DPO:

DPO-ul creează „Dezvoltare ML — Detectare fraudă" cu tipuri exacte de entități și metoda Înlocuire
Presetarea merge la toți cei doisprezece cu o singură regulă: folosiți-o pentru toată munca pe seturi
Nimeni nu poate modifica presetarea fără aprobarea DPO

Fiecare persoană produce acum același rezultat. Setul combinat este consecvent. Auditul anual AI trece cu zero constatări. Anul anterior avusese trei constatări din munca inconsistentă pe seturi.

Actualizat pentru 2026

Legea UE privind IA a intrat pe deplin în vigoare în august 2024. Adaugă reguli pentru sistemele IA care utilizează detalii personale pentru munca pe modele. Sistemele IA cu risc ridicat trebuie să documenteze seturile lor, inclusiv ce anonimizare a fost aplicată.

Articolul 5(1)(b) din GDPR — regula privind limitarea scopului — blochează utilizarea detaliilor personale fără o bază juridică clară. Cazurile CNIL din 2024 s-au concentrat pe această lacună: detalii colectate pentru un serviciu utilizate pentru munca pe modele fără nicio bază validă sau anonimizare.

Presetările ajută la satisfacerea ambelor seturi de reguli:

Numele presetării și configurarea: metoda documentată
Jurnalele de procesare: dovada că metoda a fost aplicată
Aprobarea DPO: o înregistrare a semnăturii de aprobare pe configurare

Aceasta creează trasabilitatea auditului pe care ambele legi o impun. Pentru obligațiile Articolului 10 în detaliu, consultați ghidul privind datele de antrenare conform Legii UE privind IA.

Configurarea presetărilor pentru seturile de modele NLP

Tipuri de inclus în majoritatea seturilor de modele NLP:

PERSOANĂ — Înlocuiește cu nume similare
ADRESĂ_EMAIL — Înlocuiește cu adrese sintetice
NUMĂR_TELEFON — Înlocuiește cu numere sintetice
CARD_CREDIT / IBAN — Înlocuiește sau Redact
LOCAȚIE — Înlocuiește cu locuri similare dacă locația contează; Redact dacă nu
DATA_NAȘTERII — Redact; gruparea pe vârstă este adesea necesară

Tipuri adesea excluse:

Date generale — marcajele temporale ajută modelele temporale
Nume de organizații — ajută modelele de entități denumite
URL-uri — ajută modelele de linkuri și referințe

Liderul ML și DPO stabilesc aceste reguli în presetarea aprobată. Membrii echipei o aplică. Ei nu fac alegeri de configurare.

Presetările ca memorie instituțională

Înainte de presetări. Configurarea corectă a entităților se afla în mintea a trei oameni de știință în date. Aceștia lucraseră prin revizuirea de conformitate. Doi au plecat în T3. Cunoștințele au plecat cu ei.

După presetări. Configurarea se află în „Dezvoltare ML — Dosare clienți v2.1". Jurnalul de versiuni arată când a fost creată, cine a aprobat-o și ce s-a schimbat față de v2.0. Noii membri ai echipei folosesc presetarea și accesează toate cunoștințele construite în ea.

Versiunea 2.1 a adăugat detectarea IBAN după ce o revizuire a descoperit că lipsea. Versiunea 2.0 a fost aprobată în februarie 2025. Jurnalul este complet.

Pentru modul în care jurnalele de procesare și fluxurile de revizuire ale DPO funcționează, consultați ghidul de anonimizare a datelor de antrenare ML conform GDPR.

Presetările față de tiparul CNIL

Cazurile IA ale CNIL din 2024 stabilesc un tipar clar. Aceștia nu întreabă doar ce a fost eliminat, ci și cum a fost guvernat. O presetare partajată cu o înregistrare de aprobare a DPO și jurnale de procesare răspunde direct la aceasta.

O configurare ad-hoc nu răspunde. Aceeași lacună există în alte cazuri ale APD-urilor UE care urmează logica CNIL. Pentru mai multe informații despre abordarea CNIL privind IA, consultați ghidul de conformitate GDPR IA al CNIL.

Concluzie

Documentele spun membrilor echipei ce să facă. Presetările fac ușor — și aplicabil — să faci același lucru de fiecare dată.

Pentru seturile de modele ML, consecvența este atât o necesitate juridică, cât și una tehnică. Presetarea satisface ambele simultan.

APD-urile care se uită la practicile IA doresc dovezi ale anonimizării uniforme. O presetare aplicată în același mod în toate lucrările pe seturi este cea mai clară dovadă pe care o poți oferi.

Surse

Articole Asemănătoare

Tehnic

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

Începeți Proba Gratuită Vizualizați Funcționalitățile

Confidențialitate reproductibilă: presetări ML

Confidențialitate reproductibilă: de ce echipele ML au nevoie de presetări, nu doar de documente

De ce seturile de modele ML necesită propria configurare

Problema celor doisprezece oameni de știință în date

Configurarea presetărilor pentru seturile de modele NLP

Presetările ca memorie instituțională

Presetările față de tiparul CNIL

Concluzie

Surse

Articole Asemănătoare

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pregătit să vă protejați datele?

Confidențialitate reproductibilă: presetări ML

Confidențialitate reproductibilă: de ce echipele ML au nevoie de presetări, nu doar de documente

De ce seturile de modele ML necesită propria configurare

Problema celor doisprezece oameni de știință în date

GDPR și Legea IA

Configurarea presetărilor pentru seturile de modele NLP

Presetările ca memorie instituțională

Presetările față de tiparul CNIL

Concluzie

Surse

Articole Asemănătoare

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pregătit să vă protejați datele?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow