Reprodukovatelná ochrana soukromí: Proč ML týmy potřebují přednastavení, ne jen dokumentaci
DPO schválil plán anonymizace. Pokrývá čtyři položky: jména, e-maily, telefonní čísla a data narození. Metoda je Replace. Plán má čtyři stránky a je uložen v compliance wiki.
Dvanáct datových vědců si ho přečetlo na úvodní schůzce. Každý si sám nastaví nástroj. Někteří přidají národní identifikátory. Někteří přidají IP adresy. Někteří přepnou na Redact. O tři měsíce později sady nejsou konzistentní.
CNIL v roce 2024 zkontroloval několik firem AI. Problém: nevhodné použití osobních údajů v sadách modelů. Neptali se jen na to, zda k anonymizaci došlo. Ptali se, jak konzistentně byla aplikována.
Dokumentace je potřebná. Nestačí. Opravou je přednastavení.
Proč sady modelů ML potřebují vlastní konfiguraci
Budování sad modelů má jedinečné požadavky. Obecná anonymizace dokumentů je nesdílí.
Replace, ne Redact. Modely trénované na textu, kde se jména stávají [REDACTED], se naučí tento token jako marker pozice jména. To model poškodí. Replace zamění „Jan Novák” za „David Chen.” Model vidí skutečné vzory jmen. Nevidí maskovací token.
Stejný proces pro všechny záznamy. Sada, kde je 70 % jmen nahrazeno a 30 % je [REDACTED], vysílá smíšený signál. Každý záznam musí projít stejnými kroky.
Stejný seznam entit. Pokud sada obsahuje zdravotní údaje, odebrání jmen, ale ponechání dat narození v některých záznamech vytváří mezery. Všech dvanáct datových vědců musí odebrat stejné typy.
Žádné nadměrné odebrání. Odebrání dat, která jsou časovými razítky — ne daty narození — snižuje kvalitu sady bez zisku v souladu s předpisy. Schválené přednastavení říká přesně, které položky odebrat.
Opakovatelný výstup. Pokud musí být sada spuštěna znovu — řekněme po nalezení chybějícího typu entity — přednastavení dá pokaždé stejný výsledek. Ad-hoc konfigurace ne.
Problém dvanácti datových vědců
ML tým fintechové firmy v Evropě používá sady z protokolů zákazníků. DPO schválil účel — detekce podvodů — s jedním pravidlem: všechna jména zákazníků, e-maily, telefonní čísla a ID plateb musí být nahrazena před zahájením práce na modelu.
Bez přednastavení:
- Osoba 1 odebírá jména, e-maily a telefonní čísla — ale přehlédne ID plateb
- Osoba 2 zahrnuje ID plateb, ale používá Redact, ne Replace
- Osoba 3 přesně dodržuje plánový dokument
- Osoby 4–12 se liší
Slučovaná sada je částečně nesouladná a částečně nadměrně zpracovaná. DPO ji nemůže certifikovat.
Se schváleným přednastavením DPO:
- DPO vytvoří „ML Dev — Detekce podvodů” s přesnými typy entit a metodou Replace
- Přednastavení jde všem dvanácti osobám s jedním pravidlem: použij to pro veškerou práci se sadami
- Nikdo nemůže změnit přednastavení bez souhlasu DPO
Každá osoba nyní produkuje stejný výstup. Slučovaná sada je konzistentní. Roční audit AI projde bez zjištění. Předchozí rok měl tři zjištění z nekonzistentní práce se sadami.
GDPR a zákon o AI
Aktualizováno pro rok 2026
Zákon EU o AI vstoupil plně v platnost v srpnu 2024. Přidává pravidla pro systémy AI, které používají osobní údaje pro práci na modelu. Vysoce rizikové systémy AI musí dokumentovat své sady, včetně toho, jaká anonymizace byla aplikována.
Článek 5(1)(b) GDPR — pravidlo o omezení účelu — blokuje použití osobních údajů bez jasného právního základu. Případy CNIL z roku 2024 se zaměřily na tuto mezeru: údaje shromážděné pro jednu službu použité pro práci na modelu bez platného základu nebo anonymizace.
Přednastavení pomáhají splnit obě sady pravidel:
- Název přednastavení a konfigurace: zdokumentovaná metoda
- Záznamy o zpracování: důkaz, že metoda byla aplikována
- Schválení DPO: zaznamenaný souhlas s konfigurací
Toto vytváří auditní stopu, kterou oba zákony vyžadují. Pro podrobnosti o povinnostech podle článku 10 viz průvodce trénovacími daty podle zákona EU o AI.
Konfigurace přednastavení pro sady NLP modelů
Typy, které zahrnout do většiny sad NLP modelů:
- PERSON — Replace s podobnými jmény
- EMAIL_ADDRESS — Replace se syntetickými adresami
- PHONE_NUMBER — Replace se syntetickými čísly
- CREDIT_CARD / IBAN — Replace nebo Redact
- LOCATION — Replace s podobnými místy, pokud je poloha důležitá; Redact, pokud ne
- DATE_OF_BIRTH — Redact; věkové skupiny jsou often needed
Typy, které se often vynechávají:
- Obecná data — časová razítka pomáhají temporálním modelům
- Názvy organizací — pomáhají modelům pojmenovaných entit
- URL — pomáhají modelům odkazů a referencí
ML vedoucí a DPO nastaví tato pravidla ve schváleném přednastavení. Členové týmu ho aplikují. Nečiní konfigurační rozhodnutí.
Přednastavení jako institucionální paměť
Před přednastavenymi. Správná konfigurace entit žila v hlavách tří datových vědců. Ti prošli přezkumem souladu. Dva odešli ve třetím čtvrtletí. Znalosti odešly s nimi.
Po přednastavenich. Konfigurace žije v „ML Dev — Záznamy zákazníků v2.1.” Protokol verzí ukazuje, kdy byl vytvořen, kdo ho schválil a co se změnilo od v2.0. Noví členové týmu používají přednastavení a získají veškeré znalosti do něj zabudované.
Verze 2.1 přidala detekci IBAN poté, co přezkum zjistil, že chybí. Verze 2.0 byla schválena v únoru 2025. Protokol je úplný.
Pro způsob, jakým záznamy o zpracování a toky přezkumu DPO fungují, viz průvodce anonymizací ML trénovacích dat GDPR.
Přednastavení vs. vzor CNIL
Případy AI CNIL z roku 2024 nastavily jasný vzor. Neptají se jen na to, co bylo odebráno, ale jak to bylo řízeno. Sdílené přednastavení se záznamen schválení DPO a protokoly zpracování na to odpovídá přímo.
Ad-hoc konfigurace ne. Stejná mezera existuje v dalších případech EU DPA, které sledují logiku CNIL. Pro více informací o přístupu CNIL k AI viz průvodce souladu CNIL GDPR AI.
Závěr
Dokumentace říká členům týmu, co dělat. Přednastavení to usnadňuje — a vynucuje — dělat to pokaždé stejně.
Pro sady ML modelů je konzistence jak právní potřebou, tak technickou. Přednastavení splňuje obě najednou.
DPA, které se zabývají postupy AI, chtějí důkaz jednotné anonymizace. Přednastavení aplikované stejným způsobem napříč veškerou prací se sadami je nejjasnějším důkazem, který jim můžete poskytnout.