Jeden skript nestačí
Každý datový tým napsal někdy něco podobného:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)
Tento kód nahradí e-mailové adresy. To je vše, co dělá. Dataset stále obsahuje jména, telefonní čísla a zdravotní identifikátory. Při auditu GDPR neuspěje.
Mezera mezi větou „anonymizoval jsem e-maily” a „tento dataset splňuje požadavky GDPR” je obrovská. Týmy ji neustále podceňují.
Proč GDPR omezuje použití dat pro trénování ML
Základním pravidlem je článek 5 odst. 1 písm. b) GDPR — princip omezení účelu. Osobní záznamy smí být použity pouze k účelu, pro který byly shromážděny.
Objednávky zákazníků byly shromážděny za účelem splnění objednávky. Ne pro trénování doporučovacího modelu. Zdravotní záznamy byly shromážděny za účelem léčby. Ne pro trénování modelu predikce opakované hospitalizace. Odpovědi v průzkumech byly shromážděny za účelem zpětné vazby k produktu. Ne pro trénování klasifikátoru sentimentu.
Pro použití těchto záznamů k trénování ML potřebuje tým jednu ze tří věcí:
- Výslovný souhlas každé osoby s ML účelem — obtížně získatelný, zpětně často nemožný
- Posouzení oprávněného zájmu prokazující kompatibilitu ML použití — právně nejisté, závislé na DPA
- Anonymizaci — nahrazení nebo odstranění osobních údajů tak, aby dataset nadále nespadal pod GDPR
Řádná anonymizace poskytuje největší právní jistotu. Výzvou je provádět ji správně pokaždé.
Problém s jednorázovými skripty
Týmy, které píší nový Python skript pro každý dataset, vytvářejí narůstající problémy.
Neúplné pokrytí. Skript postavený pro jedno schéma přehlédne nová pole. Sloupec s klinickými poznámkami přidaný před šesti měsíci? Není ve vzorci. Pole pro druhé jméno? Skript zvládá pouze vzory pro křestní jméno a příjmení.
Nekonzistence. Dataset A byl zpracován skriptem verze 1. Dataset B použil verzi 3. Dataset C zpracoval jiný člen týmu. Sloučená trénovací sada má aplikovány tři různé metody. DPO ji nemůže certifikovat.
Žádný auditní záznam. Skript proběhl. Co změnil? Které entity byly nalezeny? Bez záznamů o zpracování není compliance možná. Když auditor DPA položí otázku „jak víte, že tato trénovací sada je čistá?”, odpověď „spustili jsme Python skript” nestačí.
Zastarávání modelu. Vzorce regulárních výrazů, které fungovaly v roce 2023, přehlédnou nové formáty identifikátorů z roku 2024. Skripty se samy neaktualizují.
Průvodce dávkovým zpracováním
Healthcare AI tým potřebuje anonymizovat 8 000 záznamů pacientů. Americký tým potřebuje přístup z evropské kanceláře. Platí Schrems II — záznamy původem z EU nemohou bez řádných záruk přejít na americkou infrastrukturu.
Tradiční postup: Datový inženýr napíše vlastní skript. Dva až tři dny vývoje. Jeden až dva dny přezkoumání DPO. Jeden den iterace. Celkem: čtyři až šest dní. ML projekt se zpozdí.
Postup dávkového zpracování:
- Export 8 000 záznamů jako CSV
- Nahrání do dávkového zpracování
- Nastavení typů entit: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Volba metody: Replace (nahrazuje realistickými syntetickými hodnotami pro zachování struktury)
- Zpracování: 45 minut pro 8 000 záznamů
- Stažení čistého CSV souboru
- DPO přezkoumá metadata zpracování — počty entit na záznam, použité metody: 2 hodiny
- DPO schválí. Přenos proběhne.
Celkový čas: 45 minut plus 2 hodiny přezkoumání DPO. Místo čtyř až šesti dní.
Viz průvodce trénovacími daty pro EU AI Act a jak tytéž kroky splňují povinnosti podle článku 10.
Replace vs. Redact pro použití v ML
Metoda anonymizace má vliv na kvalitu modelu.
Redact nahradí PII tokenem jako [REDACTED]. Funguje pro modely detekce PII. Pro jiné úlohy — sentiment, klasifikaci, doporučování — škodí. Model se naučí, že [REDACTED] je speciální token. Nemůže se učit z přirozeného rozložení jmen a hodnot.
Replace zamění „Jan Novák” za „David Chen.” Zamění „jnovak@spolecnost.cz” za „dchen@synthetic.com.” Struktura zůstane zachována. Umístění entit, vzorce souvýskytů, tok vět — to vše je zachováno. Model se učí z realistického kontextu.
Pro trénovací sady ML je Replace správnou volbou. Model se nenaučí falešné hodnoty. Učí se vzorce kolem nich. To je podstatné.
Schrems II a přeshraniční přenosy
Rozsudek Schrems II (SDEU, 2020) zrušil platnost EU–US Privacy Shield. Záznamy původem z EU nemohou přejít na americkou ML infrastrukturu — AWS US-East, GCP US-Central — bez řádných záruk pro přenos.
Tři hlavní záruky jsou:
- Standardní smluvní doložky s posouzením dopadu přenosu
- Závazná podniková pravidla pro přenosy v rámci skupiny společností
- Výjimka pro anonymizované záznamy — řádně anonymizované soubory již nejsou osobními údaji podle GDPR a jsou vyjmuty z pravidel pro přenosy
Pro týmy používající americkou infrastrukturu se soubory původem z EU řádná anonymizace problém Schrems II odstraní. Čistý dataset není osobní. Může volně přecházet.
To je jedna z nejsilnějších praktických výhod dávkové anonymizace. Jde nad rámec splnění GDPR. Zcela odstraňuje přeshraniční tření.
Další informace o omezeních přenosů viz průvodce účelovým omezením GDPR.
Co předat DPO
Při předkládání čisté trénovací sady ke schválení DPO přiložte těchto pět položek:
- Popis zdroje. Co byl původní dataset? Jaký byl účel sběru? Jaké osobní kategorie obsahoval?
- Konfigurace anonymizace. Které typy entit byly detekovány a nahrazeny? Jaká metoda byla použita?
- Metadata zpracování. Počty entit na záznam, skóre spolehlivosti, celkový počet zpracovaných záznamů.
- Posouzení reziduálního rizika. Jaká je pravděpodobnost, že by bylo možné identifikovat konkrétní osobu? U anonymizace metodou Replace s 285+ typy entit na strukturovaný text je tato pravděpodobnost velmi nízká.
- Zamýšlené použití. Jaký model bude trénován? Jaký je účel trénování?
Dávkové zpracování automaticky poskytuje položky 2 a 3. Položky 1, 4 a 5 dodá datový vědec.
Viz dávkové API anonym.legal, jak jsou metadata zpracování vrácena s každou úlohou.
Co získáte
Sady ML splňující GDPR jsou dosažitelné bez vlastních skriptů, bez vícedenních prodlev a bez ztráty kvality modelu.
Metoda Replace zachovává vlastnosti přirozeného jazyka důležité pro trénování NLP. Odstraňuje osobní údaje, které vytvářejí riziko porušení GDPR.
45 minut dávkového zpracování je rozdílem mezi zpožděným compliance přezkoumáním a přímočarým schválením DPO.