anonym.legal

By · Last updated 2026-06-04

Înapoi la BlogTehnic

Confidențialitate reproductibilă: presetări ML

Anonimizarea datelor de antrenare ML trebuie să fie consecventă și reproductibilă. Dacă oamenii de știință A și B aplică tipuri diferite de entități, seturile de date de antrenare vor fi inconsistente.

June 4, 20266 min citire
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Confidențialitate reproductibilă: de ce echipele ML au nevoie de presetări, nu doar de documente

DPO-ul a aprobat planul de anonimizare. Acoperă patru elemente: nume, emailuri, numere de telefon și date de naștere. Metoda este Înlocuire. Planul are patru pagini și se află în wiki-ul de conformitate.

Doisprezece oameni de știință în date l-au citit la kickoff. Fiecare și-a configurat instrumentul pe cont propriu. Unii adaugă ID-uri naționale. Unii adaugă adrese IP. Unii trec la Redact. Trei luni mai târziu, seturile nu sunt consecvente.

CNIL a verificat mai multe firme de IA în 2024. Problema: utilizarea inadecvată a detaliilor personale în seturile de modele. Nu au întrebat doar dacă anonimizarea a avut loc. Au întrebat cât de consecvent a fost aplicată.

Documentele sunt necesare. Nu sunt suficiente. Soluția este presetarea.

De ce seturile de modele ML necesită propria configurare

Constituirea seturilor de modele are nevoi unice. Anonimizarea generală a documentelor nu le împărtășește.

Înlocuire, nu Redact. Modelele antrenate pe text în care numele devin [REDACTED] învață acel token ca marker de poziție a numelui. Acest lucru afectează modelul. Înlocuirea schimbă „Ion Popescu" cu „David Chen". Modelul vede tipare reale de nume. Nu vede un token de mască.

Același proces pentru toate înregistrările. Un set în care 70% din nume sunt înlocuite și 30% sunt [REDACTED] trimite semnale mixte. Fiecare înregistrare trebuie să treacă prin aceiași pași.

Aceeași listă de entități. Dacă setul conține date de sănătate, eliminarea numelor dar lăsarea datelor de naștere în unele înregistrări creează lacune. Toți cei doisprezece oameni de știință în date trebuie să elimine aceleași tipuri.

Fără supraeliminare. Eliminarea datelor care sunt marcaje temporale — nu date de naștere — reduce calitatea setului fără niciun câștig de conformitate. Presetarea aprobată specifică exact ce elemente trebuie eliminate.

Rezultate repetabile. Dacă un set trebuie rulat din nou — să zicem, după ce se descoperă un tip de entitate omis — presetarea oferă același rezultat de fiecare dată. Configurările ad-hoc nu oferă.

Problema celor doisprezece oameni de știință în date

O echipă ML fintech din Europa folosește seturi din jurnalele de clienți. DPO-ul a aprobat scopul — detectarea fraudei — cu o singură regulă: toate numele clienților, emailurile, numerele de telefon și ID-urile de plată trebuie înlocuite înainte ca munca pe modele să înceapă.

Fără presetări:

  • Persoana 1 elimină numele, emailurile și numerele de telefon — dar ratează ID-urile de plată
  • Persoana 2 include ID-urile de plată dar folosește Redact, nu Înlocuire
  • Persoana 3 urmează documentul planului exact
  • Persoanele 4–12 variază

Setul combinat este parțial neconform și parțial supra-procesat. Un DPO nu îl poate certifica.

Cu o presetare aprobată de DPO:

  • DPO-ul creează „Dezvoltare ML — Detectare fraudă" cu tipuri exacte de entități și metoda Înlocuire
  • Presetarea merge la toți cei doisprezece cu o singură regulă: folosiți-o pentru toată munca pe seturi
  • Nimeni nu poate modifica presetarea fără aprobarea DPO

Fiecare persoană produce acum același rezultat. Setul combinat este consecvent. Auditul anual AI trece cu zero constatări. Anul anterior avusese trei constatări din munca inconsistentă pe seturi.

GDPR și Legea IA

Actualizat pentru 2026

Legea UE privind IA a intrat pe deplin în vigoare în august 2024. Adaugă reguli pentru sistemele IA care utilizează detalii personale pentru munca pe modele. Sistemele IA cu risc ridicat trebuie să documenteze seturile lor, inclusiv ce anonimizare a fost aplicată.

Articolul 5(1)(b) din GDPR — regula privind limitarea scopului — blochează utilizarea detaliilor personale fără o bază juridică clară. Cazurile CNIL din 2024 s-au concentrat pe această lacună: detalii colectate pentru un serviciu utilizate pentru munca pe modele fără nicio bază validă sau anonimizare.

Presetările ajută la satisfacerea ambelor seturi de reguli:

  • Numele presetării și configurarea: metoda documentată
  • Jurnalele de procesare: dovada că metoda a fost aplicată
  • Aprobarea DPO: o înregistrare a semnăturii de aprobare pe configurare

Aceasta creează trasabilitatea auditului pe care ambele legi o impun. Pentru obligațiile Articolului 10 în detaliu, consultați ghidul privind datele de antrenare conform Legii UE privind IA.

Configurarea presetărilor pentru seturile de modele NLP

Tipuri de inclus în majoritatea seturilor de modele NLP:

  • PERSOANĂ — Înlocuiește cu nume similare
  • ADRESĂ_EMAIL — Înlocuiește cu adrese sintetice
  • NUMĂR_TELEFON — Înlocuiește cu numere sintetice
  • CARD_CREDIT / IBAN — Înlocuiește sau Redact
  • LOCAȚIE — Înlocuiește cu locuri similare dacă locația contează; Redact dacă nu
  • DATA_NAȘTERII — Redact; gruparea pe vârstă este adesea necesară

Tipuri adesea excluse:

  • Date generale — marcajele temporale ajută modelele temporale
  • Nume de organizații — ajută modelele de entități denumite
  • URL-uri — ajută modelele de linkuri și referințe

Liderul ML și DPO stabilesc aceste reguli în presetarea aprobată. Membrii echipei o aplică. Ei nu fac alegeri de configurare.

Presetările ca memorie instituțională

Înainte de presetări. Configurarea corectă a entităților se afla în mintea a trei oameni de știință în date. Aceștia lucraseră prin revizuirea de conformitate. Doi au plecat în T3. Cunoștințele au plecat cu ei.

După presetări. Configurarea se află în „Dezvoltare ML — Dosare clienți v2.1". Jurnalul de versiuni arată când a fost creată, cine a aprobat-o și ce s-a schimbat față de v2.0. Noii membri ai echipei folosesc presetarea și accesează toate cunoștințele construite în ea.

Versiunea 2.1 a adăugat detectarea IBAN după ce o revizuire a descoperit că lipsea. Versiunea 2.0 a fost aprobată în februarie 2025. Jurnalul este complet.

Pentru modul în care jurnalele de procesare și fluxurile de revizuire ale DPO funcționează, consultați ghidul de anonimizare a datelor de antrenare ML conform GDPR.

Presetările față de tiparul CNIL

Cazurile IA ale CNIL din 2024 stabilesc un tipar clar. Aceștia nu întreabă doar ce a fost eliminat, ci și cum a fost guvernat. O presetare partajată cu o înregistrare de aprobare a DPO și jurnale de procesare răspunde direct la aceasta.

O configurare ad-hoc nu răspunde. Aceeași lacună există în alte cazuri ale APD-urilor UE care urmează logica CNIL. Pentru mai multe informații despre abordarea CNIL privind IA, consultați ghidul de conformitate GDPR IA al CNIL.

Concluzie

Documentele spun membrilor echipei ce să facă. Presetările fac ușor — și aplicabil — să faci același lucru de fiecare dată.

Pentru seturile de modele ML, consecvența este atât o necesitate juridică, cât și una tehnică. Presetarea satisface ambele simultan.

APD-urile care se uită la practicile IA doresc dovezi ale anonimizării uniforme. O presetare aplicată în același mod în toate lucrările pe seturi este cea mai clară dovadă pe care o poți oferi.

Surse

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.