By · Last updated 2026-06-03

Späť na blogTechnické

Reprodukovatelne sukromie: Predvolby pre ML

Anonymizacia trénovacich dat ML musi byt konzistentna a reprodukovatelna. Ak data vedci A a B aplikuju rozne typy entit, trénovacie datasety su nekonzistentne.

June 3, 20266 min čítania
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reprodukovatelne sukromie: Preco timy ML potrebuju predvolby, nie len dokumenty

DPO schvalilo plan anonymizacie. Pokryva stiri polozky: mena, e-maily, telefonne cisla a datumy narodenia. Metoda je Replace. Plan ma styri stranky a nachadza sa v kompliancnom wiki.

Dvanast datovych vedcov ho precítalo na kickoffe. Kazdy nastavil nastroj samostatne. Niektorí pridali narodne ID. Niektorí pridali IP adresy. Niektorí prepli na Redact. O tri mesiace neskôr sady nie su konzistentné.

CNIL kontrolovala niekolko firiem AI v roku 2024. Problem: nevhodne pouzívanie osobnych udajov v modelových sadách. Nepytali sa len na to, ci k anonymizacii doslo. Pytali sa, ako konzistentne bola aplikovaná.

Dokumenty su potrebne. Nestacia. Opatrením je predvolba.

Preco modelové sady ML potrebuju vlastnu konfiguraciu

Budovanie modelovych sad ma jedinecne poziadavky. Vseobecna anonymizacia dokumentov ich nezdielá.

Replace, nie Redact. Modely trénované na texte, kde mena sa stanu [REDACTED], sa naucí tento token ako marker pozície mena. To skodí modelu. Replace vymeni "John Smith" za "David Chen." Model vidí realné vzory mien. Nevidi maskovaci token.

Rovnaky proces pre vsetky zaznamy. Sada, kde 70% mien je nahradených a 30% je [REDACTED], posiela zmiešaný signal. Kazdy zaznam musí prejst rovnakymi krokmi.

Rovnaky zoznam entit. Ak sada obsahuje zdravotné udaje, odstraňovanie mien ale zachovanie datumov narodenia v niektorych zaznamoch vytvara medzery. Vsetkych dvanast datovych vedcov musi odstranit rovnake typy.

Bez nadmernaho odstranovania. Vybratanie datumov, ktore su casove peciatky - nie datumy narodenia - znizuje kvalitu sady bez zisku v oblasti suladenosta. Schvalena predvolba uvadza presne, ktore polozky odstranit.

Reprodukovatelný vystup. Ak sa musí sada znovu spustit - napr. po tom, co sa najde chybajuci typ entity - predvolba dava kazdy raz rovnaky vysledok. Ad hoc konfigurácie to nedavaju.

Problem dvanastich datovych vedcov

Fintech ML tím v Europé pouzíva sady z protokolov zákazníkov. DPO schvalilo ucel - detekcia podvodov - s jednym pravidlom: vsetky mena zákazníkov, e-maily, telefonne cisla a ID platby musia byt nahradené pred zacatím prace na modeli.

Bez predvolieb:

  • Osoba 1 odstrani mena, e-maily a telefonne cisla - ale zameskala ID platby
  • Osoba 2 zahrnuje ID platby, ale pouzíva Redact, nie Replace
  • Osoba 3 nasleduje presne planový dokument
  • Osoby 4 az 12 sa lisia

Zlúcená sada je ciastocne nesuladna a ciastocne nadmerne spracovana. DPO ju nemoze certifikovat.

S predvolbou schvalenou DPO:

  • DPO vytvorí "ML Dev - Detekcia podvodov" s presnymi typmi entit a metodou Replace
  • Predvolba ide vsetkym dvanastim ludom s jednym pravidlom: pouzivaite to pre vsetku pracu so sadami
  • Nikto nemoze zmenit predvolbu bez suhlasu DPO

Kazda osoba teraz produkuje rovnaky vystup. Zlucena sada je konzistentna. Rocny audit AI prebehne bez zisteni. Predchadzajuci rok mal tri zistenia z nekonzistentnej prace so sadami.

GDPR a zákon o AI

Aktualizovane pre rok 2026

EU zákon o AI vstupil do plnej uccinnosti v auguste 2024. Pridava pravidla pre systemy AI, ktore pouzivaju osobne udaje pre pracu na modeli. Systemy AI s vysokym rizikom musia dokumentovat svoje sady vrátane toho, aka anonymizacia bola aplikovana.

Clanok 5(1)(b) GDPR - pravidlo obmedzenia ucelu - blokuje pouzitie osobnych udajov bez jasneho pravneho zakladu. Pripady CNIL z roku 2024 sa zamerali na tuto medzeru: udaje zozbierane pre jednu sluzbu pouzite pre pracu na modeli bez platného zakladu alebo anonymizacie.

Predvolby pomahaju splnit obe sady pravidiel:

  • Nazov a konfiguracia predvolby: zdokumentovana metoda
  • Procesné logy: dokaz, ze metoda bola aplikovana
  • Souhlas DPO: zaznamenaný schváleny na konfiguracion

Tym sa vytvori auditny zaznam, ktory vyzaduju oba zakony. Pre podrobnosti o povinnostiach Clanku 10, pozrite si sprievodcu trénovacimi datami EU zakona o AI.

Konfiguracia predvolby pre sady NLP modelu

Typy, ktore zahrnut vo vacsine sad NLP modelu:

  • PERSON - Nahradit podobnymi menami
  • EMAIL_ADDRESS - Nahradit syntetickymi adresami
  • PHONE_NUMBER - Nahradit syntetickymi cislami
  • CREDIT_CARD / IBAN - Nahradit alebo Redact
  • LOCATION - Nahradit podobnymi miestami ak je poloha dolezitá; Redact ak nie je
  • DATE_OF_BIRTH - Redact; casto je potrebne zoskupenie podla veku

Typy casto vynechávané:

  • Vseobecné datumy - casové peciatky pomahaju casovym modelom
  • Nazvy organizacii - pomahaju modelom pomenovaných entit
  • URL - pomahaju modelom odkazov a referencii

Vedúci ML a DPO nastavia tieto pravidla v schvalenej predvolbe. Clenovia timu ju aplikuju. Nevytvaraju konfiguracne rozhodnutia.

Predvolby ako institutionalna pamat

Pred predvolbami. Spravna konfiguracia entit zila v hlavach troch datovych vedcov. Pracovali si cez kontrolu suladenosta. Dvaja odisli v Q3. Znalosti odisli s nimi.

Po predvolbách. Konfiguracia zije v "ML Dev - Zaznamy zákazníkov v2.1." Log verzii ukazuje, kedy bol vytvoreny, kto ho schvalil a co sa zmenilo z v2.0. Noví clenovia timu pouzivaiu predvolbu a dostanu vsetky znalosti do nej zabudovane.

Verzia 2.1 pridala detekciu IBAN po tom, co kontrola zistila, ze chyba. Verzia 2.0 bola schvalena vo februári 2025. Log je uplny.

Pre to, ako funguju procesné logy a toky kontroly DPO, pozrite si sprievodcu anonymizaciou trénovacich dat ML podla GDPR.

Predvolby vs. vzor CNIL

Pripady AI CNIL z roku 2024 ustavuju jasny vzor. Nepytaju sa len na to, co bolo odstranene, ale ako to bolo riadené. Zdielaná predvolba so zaznamom suhlasu DPO a procesnymi logmi na to odpovieda priamo.

Ad hoc konfiguracia nie. Rovnaka medzera existuje v inych pripadoch EU DPA, ktore nasleduju logiku CNIL. Pre viac o pristupe CNIL k AI, pozrite si sprievodcu suladenosta GDPR CNIL AI.

Zaver

Dokumenty hovoria clenomtimu, co mat robit. Predvolby to robia lahkym - a vynutil'itelnym - robit to rovnakym sposobom kazdy raz.

Pre sady ML modelov je konzistentnost jak pravnou tak technickou potrebou. Predvolba splna obe naraz.

DPA sledujuce praksy AI chcu dokazy o jednotnej anonymizacii. Predvolba aplikovana rovnakym sposobom napriec vsetkymi sadami je najjasnejsim dokazom, ktory im mozete dat.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.