By · Last updated 2026-06-03

Zpět na blogTechnické

Reprodukovatelná ochrana soukromí: Přednastavení pro ML

Anonymizace trénovacích dat ML musí být konzistentní a reprodukovatelná. Pokud datové vědkyně A a B aplikují různé typy entit, trénovací datasety jsou.

June 3, 20266 min čtení
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reprodukovatelná ochrana soukromí: Proč ML týmy potřebují přednastavení, ne jen dokumentaci

DPO schválil plán anonymizace. Pokrývá čtyři položky: jména, e-maily, telefonní čísla a data narození. Metoda je Replace. Plán má čtyři stránky a je uložen v compliance wiki.

Dvanáct datových vědců si ho přečetlo na úvodní schůzce. Každý si sám nastaví nástroj. Někteří přidají národní identifikátory. Někteří přidají IP adresy. Někteří přepnou na Redact. O tři měsíce později sady nejsou konzistentní.

CNIL v roce 2024 zkontroloval několik firem AI. Problém: nevhodné použití osobních údajů v sadách modelů. Neptali se jen na to, zda k anonymizaci došlo. Ptali se, jak konzistentně byla aplikována.

Dokumentace je potřebná. Nestačí. Opravou je přednastavení.

Proč sady modelů ML potřebují vlastní konfiguraci

Budování sad modelů má jedinečné požadavky. Obecná anonymizace dokumentů je nesdílí.

Replace, ne Redact. Modely trénované na textu, kde se jména stávají [REDACTED], se naučí tento token jako marker pozice jména. To model poškodí. Replace zamění „Jan Novák” za „David Chen.” Model vidí skutečné vzory jmen. Nevidí maskovací token.

Stejný proces pro všechny záznamy. Sada, kde je 70 % jmen nahrazeno a 30 % je [REDACTED], vysílá smíšený signál. Každý záznam musí projít stejnými kroky.

Stejný seznam entit. Pokud sada obsahuje zdravotní údaje, odebrání jmen, ale ponechání dat narození v některých záznamech vytváří mezery. Všech dvanáct datových vědců musí odebrat stejné typy.

Žádné nadměrné odebrání. Odebrání dat, která jsou časovými razítky — ne daty narození — snižuje kvalitu sady bez zisku v souladu s předpisy. Schválené přednastavení říká přesně, které položky odebrat.

Opakovatelný výstup. Pokud musí být sada spuštěna znovu — řekněme po nalezení chybějícího typu entity — přednastavení dá pokaždé stejný výsledek. Ad-hoc konfigurace ne.

Problém dvanácti datových vědců

ML tým fintechové firmy v Evropě používá sady z protokolů zákazníků. DPO schválil účel — detekce podvodů — s jedním pravidlem: všechna jména zákazníků, e-maily, telefonní čísla a ID plateb musí být nahrazena před zahájením práce na modelu.

Bez přednastavení:

  • Osoba 1 odebírá jména, e-maily a telefonní čísla — ale přehlédne ID plateb
  • Osoba 2 zahrnuje ID plateb, ale používá Redact, ne Replace
  • Osoba 3 přesně dodržuje plánový dokument
  • Osoby 4–12 se liší

Slučovaná sada je částečně nesouladná a částečně nadměrně zpracovaná. DPO ji nemůže certifikovat.

Se schváleným přednastavením DPO:

  • DPO vytvoří „ML Dev — Detekce podvodů” s přesnými typy entit a metodou Replace
  • Přednastavení jde všem dvanácti osobám s jedním pravidlem: použij to pro veškerou práci se sadami
  • Nikdo nemůže změnit přednastavení bez souhlasu DPO

Každá osoba nyní produkuje stejný výstup. Slučovaná sada je konzistentní. Roční audit AI projde bez zjištění. Předchozí rok měl tři zjištění z nekonzistentní práce se sadami.

GDPR a zákon o AI

Aktualizováno pro rok 2026

Zákon EU o AI vstoupil plně v platnost v srpnu 2024. Přidává pravidla pro systémy AI, které používají osobní údaje pro práci na modelu. Vysoce rizikové systémy AI musí dokumentovat své sady, včetně toho, jaká anonymizace byla aplikována.

Článek 5(1)(b) GDPR — pravidlo o omezení účelu — blokuje použití osobních údajů bez jasného právního základu. Případy CNIL z roku 2024 se zaměřily na tuto mezeru: údaje shromážděné pro jednu službu použité pro práci na modelu bez platného základu nebo anonymizace.

Přednastavení pomáhají splnit obě sady pravidel:

  • Název přednastavení a konfigurace: zdokumentovaná metoda
  • Záznamy o zpracování: důkaz, že metoda byla aplikována
  • Schválení DPO: zaznamenaný souhlas s konfigurací

Toto vytváří auditní stopu, kterou oba zákony vyžadují. Pro podrobnosti o povinnostech podle článku 10 viz průvodce trénovacími daty podle zákona EU o AI.

Konfigurace přednastavení pro sady NLP modelů

Typy, které zahrnout do většiny sad NLP modelů:

  • PERSON — Replace s podobnými jmény
  • EMAIL_ADDRESS — Replace se syntetickými adresami
  • PHONE_NUMBER — Replace se syntetickými čísly
  • CREDIT_CARD / IBAN — Replace nebo Redact
  • LOCATION — Replace s podobnými místy, pokud je poloha důležitá; Redact, pokud ne
  • DATE_OF_BIRTH — Redact; věkové skupiny jsou often needed

Typy, které se often vynechávají:

  • Obecná data — časová razítka pomáhají temporálním modelům
  • Názvy organizací — pomáhají modelům pojmenovaných entit
  • URL — pomáhají modelům odkazů a referencí

ML vedoucí a DPO nastaví tato pravidla ve schváleném přednastavení. Členové týmu ho aplikují. Nečiní konfigurační rozhodnutí.

Přednastavení jako institucionální paměť

Před přednastavenymi. Správná konfigurace entit žila v hlavách tří datových vědců. Ti prošli přezkumem souladu. Dva odešli ve třetím čtvrtletí. Znalosti odešly s nimi.

Po přednastavenich. Konfigurace žije v „ML Dev — Záznamy zákazníků v2.1.” Protokol verzí ukazuje, kdy byl vytvořen, kdo ho schválil a co se změnilo od v2.0. Noví členové týmu používají přednastavení a získají veškeré znalosti do něj zabudované.

Verze 2.1 přidala detekci IBAN poté, co přezkum zjistil, že chybí. Verze 2.0 byla schválena v únoru 2025. Protokol je úplný.

Pro způsob, jakým záznamy o zpracování a toky přezkumu DPO fungují, viz průvodce anonymizací ML trénovacích dat GDPR.

Přednastavení vs. vzor CNIL

Případy AI CNIL z roku 2024 nastavily jasný vzor. Neptají se jen na to, co bylo odebráno, ale jak to bylo řízeno. Sdílené přednastavení se záznamen schválení DPO a protokoly zpracování na to odpovídá přímo.

Ad-hoc konfigurace ne. Stejná mezera existuje v dalších případech EU DPA, které sledují logiku CNIL. Pro více informací o přístupu CNIL k AI viz průvodce souladu CNIL GDPR AI.

Závěr

Dokumentace říká členům týmu, co dělat. Přednastavení to usnadňuje — a vynucuje — dělat to pokaždé stejně.

Pro sady ML modelů je konzistence jak právní potřebou, tak technickou. Přednastavení splňuje obě najednou.

DPA, které se zabývají postupy AI, chtějí důkaz jednotné anonymizace. Přednastavení aplikované stejným způsobem napříč veškerou prací se sadami je nejjasnějším důkazem, který jim můžete poskytnout.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.