Reprodukovatelná ochrana soukromí: Proč ML týmy potřebují přednastavení, ne jen dokumentaci

DPO schválil plán anonymizace. Pokrývá čtyři položky: jména, e-maily, telefonní čísla a data narození. Metoda je Replace. Plán má čtyři stránky a je uložen v compliance wiki.

Dvanáct datových vědců si ho přečetlo na úvodní schůzce. Každý si sám nastaví nástroj. Někteří přidají národní identifikátory. Někteří přidají IP adresy. Někteří přepnou na Redact. O tři měsíce později sady nejsou konzistentní.

CNIL v roce 2024 zkontroloval několik firem AI. Problém: nevhodné použití osobních údajů v sadách modelů. Neptali se jen na to, zda k anonymizaci došlo. Ptali se, jak konzistentně byla aplikována.

Dokumentace je potřebná. Nestačí. Opravou je přednastavení.

Proč sady modelů ML potřebují vlastní konfiguraci

Budování sad modelů má jedinečné požadavky. Obecná anonymizace dokumentů je nesdílí.

Replace, ne Redact. Modely trénované na textu, kde se jména stávají [REDACTED], se naučí tento token jako marker pozice jména. To model poškodí. Replace zamění „Jan Novák” za „David Chen.” Model vidí skutečné vzory jmen. Nevidí maskovací token.

Stejný proces pro všechny záznamy. Sada, kde je 70 % jmen nahrazeno a 30 % je [REDACTED], vysílá smíšený signál. Každý záznam musí projít stejnými kroky.

Stejný seznam entit. Pokud sada obsahuje zdravotní údaje, odebrání jmen, ale ponechání dat narození v některých záznamech vytváří mezery. Všech dvanáct datových vědců musí odebrat stejné typy.

Žádné nadměrné odebrání. Odebrání dat, která jsou časovými razítky — ne daty narození — snižuje kvalitu sady bez zisku v souladu s předpisy. Schválené přednastavení říká přesně, které položky odebrat.

Opakovatelný výstup. Pokud musí být sada spuštěna znovu — řekněme po nalezení chybějícího typu entity — přednastavení dá pokaždé stejný výsledek. Ad-hoc konfigurace ne.

Problém dvanácti datových vědců

ML tým fintechové firmy v Evropě používá sady z protokolů zákazníků. DPO schválil účel — detekce podvodů — s jedním pravidlem: všechna jména zákazníků, e-maily, telefonní čísla a ID plateb musí být nahrazena před zahájením práce na modelu.

Bez přednastavení:

Osoba 1 odebírá jména, e-maily a telefonní čísla — ale přehlédne ID plateb
Osoba 2 zahrnuje ID plateb, ale používá Redact, ne Replace
Osoba 3 přesně dodržuje plánový dokument
Osoby 4–12 se liší

Slučovaná sada je částečně nesouladná a částečně nadměrně zpracovaná. DPO ji nemůže certifikovat.

Se schváleným přednastavením DPO:

DPO vytvoří „ML Dev — Detekce podvodů” s přesnými typy entit a metodou Replace
Přednastavení jde všem dvanácti osobám s jedním pravidlem: použij to pro veškerou práci se sadami
Nikdo nemůže změnit přednastavení bez souhlasu DPO

Každá osoba nyní produkuje stejný výstup. Slučovaná sada je konzistentní. Roční audit AI projde bez zjištění. Předchozí rok měl tři zjištění z nekonzistentní práce se sadami.

Aktualizováno pro rok 2026

Zákon EU o AI vstoupil plně v platnost v srpnu 2024. Přidává pravidla pro systémy AI, které používají osobní údaje pro práci na modelu. Vysoce rizikové systémy AI musí dokumentovat své sady, včetně toho, jaká anonymizace byla aplikována.

Článek 5(1)(b) GDPR — pravidlo o omezení účelu — blokuje použití osobních údajů bez jasného právního základu. Případy CNIL z roku 2024 se zaměřily na tuto mezeru: údaje shromážděné pro jednu službu použité pro práci na modelu bez platného základu nebo anonymizace.

Přednastavení pomáhají splnit obě sady pravidel:

Název přednastavení a konfigurace: zdokumentovaná metoda
Záznamy o zpracování: důkaz, že metoda byla aplikována
Schválení DPO: zaznamenaný souhlas s konfigurací

Toto vytváří auditní stopu, kterou oba zákony vyžadují. Pro podrobnosti o povinnostech podle článku 10 viz průvodce trénovacími daty podle zákona EU o AI.

Konfigurace přednastavení pro sady NLP modelů

Typy, které zahrnout do většiny sad NLP modelů:

PERSON — Replace s podobnými jmény
EMAIL_ADDRESS — Replace se syntetickými adresami
PHONE_NUMBER — Replace se syntetickými čísly
CREDIT_CARD / IBAN — Replace nebo Redact
LOCATION — Replace s podobnými místy, pokud je poloha důležitá; Redact, pokud ne
DATE_OF_BIRTH — Redact; věkové skupiny jsou often needed

Typy, které se often vynechávají:

Obecná data — časová razítka pomáhají temporálním modelům
Názvy organizací — pomáhají modelům pojmenovaných entit
URL — pomáhají modelům odkazů a referencí

ML vedoucí a DPO nastaví tato pravidla ve schváleném přednastavení. Členové týmu ho aplikují. Nečiní konfigurační rozhodnutí.

Přednastavení jako institucionální paměť

Před přednastavenymi. Správná konfigurace entit žila v hlavách tří datových vědců. Ti prošli přezkumem souladu. Dva odešli ve třetím čtvrtletí. Znalosti odešly s nimi.

Po přednastavenich. Konfigurace žije v „ML Dev — Záznamy zákazníků v2.1.” Protokol verzí ukazuje, kdy byl vytvořen, kdo ho schválil a co se změnilo od v2.0. Noví členové týmu používají přednastavení a získají veškeré znalosti do něj zabudované.

Verze 2.1 přidala detekci IBAN poté, co přezkum zjistil, že chybí. Verze 2.0 byla schválena v únoru 2025. Protokol je úplný.

Pro způsob, jakým záznamy o zpracování a toky přezkumu DPO fungují, viz průvodce anonymizací ML trénovacích dat GDPR.

Přednastavení vs. vzor CNIL

Případy AI CNIL z roku 2024 nastavily jasný vzor. Neptají se jen na to, co bylo odebráno, ale jak to bylo řízeno. Sdílené přednastavení se záznamen schválení DPO a protokoly zpracování na to odpovídá přímo.

Ad-hoc konfigurace ne. Stejná mezera existuje v dalších případech EU DPA, které sledují logiku CNIL. Pro více informací o přístupu CNIL k AI viz průvodce souladu CNIL GDPR AI.

Závěr

Dokumentace říká členům týmu, co dělat. Přednastavení to usnadňuje — a vynucuje — dělat to pokaždé stejně.

Pro sady ML modelů je konzistence jak právní potřebou, tak technickou. Přednastavení splňuje obě najednou.

DPA, které se zabývají postupy AI, chtějí důkaz jednotné anonymizace. Přednastavení aplikované stejným způsobem napříč veškerou prací se sadami je nejjasnějším důkazem, který jim můžete poskytnout.

Zdroje

Související články

Technické

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

Reprodukovatelná ochrana soukromí: Přednastavení pro ML

Reprodukovatelná ochrana soukromí: Proč ML týmy potřebují přednastavení, ne jen dokumentaci

Proč sady modelů ML potřebují vlastní konfiguraci

Problém dvanácti datových vědců

Konfigurace přednastavení pro sady NLP modelů

Přednastavení jako institucionální paměť

Přednastavení vs. vzor CNIL

Závěr

Zdroje

Související články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Připraveni chránit svá data?

Reprodukovatelná ochrana soukromí: Přednastavení pro ML

Reprodukovatelná ochrana soukromí: Proč ML týmy potřebují přednastavení, ne jen dokumentaci

Proč sady modelů ML potřebují vlastní konfiguraci

Problém dvanácti datových vědců

GDPR a zákon o AI

Konfigurace přednastavení pro sady NLP modelů

Přednastavení jako institucionální paměť

Přednastavení vs. vzor CNIL

Závěr

Zdroje

Související články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow