Jeden skript nestačí

Každý datový tým napsal někdy něco podobného:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)

Tento kód nahradí e-mailové adresy. To je vše, co dělá. Dataset stále obsahuje jména, telefonní čísla a zdravotní identifikátory. Při auditu GDPR neuspěje.

Mezera mezi větou „anonymizoval jsem e-maily” a „tento dataset splňuje požadavky GDPR” je obrovská. Týmy ji neustále podceňují.

Základním pravidlem je článek 5 odst. 1 písm. b) GDPR — princip omezení účelu. Osobní záznamy smí být použity pouze k účelu, pro který byly shromážděny.

Objednávky zákazníků byly shromážděny za účelem splnění objednávky. Ne pro trénování doporučovacího modelu. Zdravotní záznamy byly shromážděny za účelem léčby. Ne pro trénování modelu predikce opakované hospitalizace. Odpovědi v průzkumech byly shromážděny za účelem zpětné vazby k produktu. Ne pro trénování klasifikátoru sentimentu.

Pro použití těchto záznamů k trénování ML potřebuje tým jednu ze tří věcí:

Výslovný souhlas každé osoby s ML účelem — obtížně získatelný, zpětně často nemožný
Posouzení oprávněného zájmu prokazující kompatibilitu ML použití — právně nejisté, závislé na DPA
Anonymizaci — nahrazení nebo odstranění osobních údajů tak, aby dataset nadále nespadal pod GDPR

Řádná anonymizace poskytuje největší právní jistotu. Výzvou je provádět ji správně pokaždé.

Problém s jednorázovými skripty

Týmy, které píší nový Python skript pro každý dataset, vytvářejí narůstající problémy.

Neúplné pokrytí. Skript postavený pro jedno schéma přehlédne nová pole. Sloupec s klinickými poznámkami přidaný před šesti měsíci? Není ve vzorci. Pole pro druhé jméno? Skript zvládá pouze vzory pro křestní jméno a příjmení.

Nekonzistence. Dataset A byl zpracován skriptem verze 1. Dataset B použil verzi 3. Dataset C zpracoval jiný člen týmu. Sloučená trénovací sada má aplikovány tři různé metody. DPO ji nemůže certifikovat.

Žádný auditní záznam. Skript proběhl. Co změnil? Které entity byly nalezeny? Bez záznamů o zpracování není compliance možná. Když auditor DPA položí otázku „jak víte, že tato trénovací sada je čistá?”, odpověď „spustili jsme Python skript” nestačí.

Zastarávání modelu. Vzorce regulárních výrazů, které fungovaly v roce 2023, přehlédnou nové formáty identifikátorů z roku 2024. Skripty se samy neaktualizují.

Průvodce dávkovým zpracováním

Healthcare AI tým potřebuje anonymizovat 8 000 záznamů pacientů. Americký tým potřebuje přístup z evropské kanceláře. Platí Schrems II — záznamy původem z EU nemohou bez řádných záruk přejít na americkou infrastrukturu.

Tradiční postup: Datový inženýr napíše vlastní skript. Dva až tři dny vývoje. Jeden až dva dny přezkoumání DPO. Jeden den iterace. Celkem: čtyři až šest dní. ML projekt se zpozdí.

Postup dávkového zpracování:

Export 8 000 záznamů jako CSV
Nahrání do dávkového zpracování
Nastavení typů entit: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Volba metody: Replace (nahrazuje realistickými syntetickými hodnotami pro zachování struktury)
Zpracování: 45 minut pro 8 000 záznamů
Stažení čistého CSV souboru
DPO přezkoumá metadata zpracování — počty entit na záznam, použité metody: 2 hodiny
DPO schválí. Přenos proběhne.

Celkový čas: 45 minut plus 2 hodiny přezkoumání DPO. Místo čtyř až šesti dní.

Viz průvodce trénovacími daty pro EU AI Act a jak tytéž kroky splňují povinnosti podle článku 10.

Replace vs. Redact pro použití v ML

Metoda anonymizace má vliv na kvalitu modelu.

Redact nahradí PII tokenem jako [REDACTED]. Funguje pro modely detekce PII. Pro jiné úlohy — sentiment, klasifikaci, doporučování — škodí. Model se naučí, že [REDACTED] je speciální token. Nemůže se učit z přirozeného rozložení jmen a hodnot.

Replace zamění „Jan Novák” za „David Chen.” Zamění „jnovak@spolecnost.cz” za „dchen@synthetic.com.” Struktura zůstane zachována. Umístění entit, vzorce souvýskytů, tok vět — to vše je zachováno. Model se učí z realistického kontextu.

Pro trénovací sady ML je Replace správnou volbou. Model se nenaučí falešné hodnoty. Učí se vzorce kolem nich. To je podstatné.

Schrems II a přeshraniční přenosy

Rozsudek Schrems II (SDEU, 2020) zrušil platnost EU–US Privacy Shield. Záznamy původem z EU nemohou přejít na americkou ML infrastrukturu — AWS US-East, GCP US-Central — bez řádných záruk pro přenos.

Tři hlavní záruky jsou:

Standardní smluvní doložky s posouzením dopadu přenosu
Závazná podniková pravidla pro přenosy v rámci skupiny společností
Výjimka pro anonymizované záznamy — řádně anonymizované soubory již nejsou osobními údaji podle GDPR a jsou vyjmuty z pravidel pro přenosy

Pro týmy používající americkou infrastrukturu se soubory původem z EU řádná anonymizace problém Schrems II odstraní. Čistý dataset není osobní. Může volně přecházet.

To je jedna z nejsilnějších praktických výhod dávkové anonymizace. Jde nad rámec splnění GDPR. Zcela odstraňuje přeshraniční tření.

Další informace o omezeních přenosů viz průvodce účelovým omezením GDPR.

Co předat DPO

Při předkládání čisté trénovací sady ke schválení DPO přiložte těchto pět položek:

Popis zdroje. Co byl původní dataset? Jaký byl účel sběru? Jaké osobní kategorie obsahoval?
Konfigurace anonymizace. Které typy entit byly detekovány a nahrazeny? Jaká metoda byla použita?
Metadata zpracování. Počty entit na záznam, skóre spolehlivosti, celkový počet zpracovaných záznamů.
Posouzení reziduálního rizika. Jaká je pravděpodobnost, že by bylo možné identifikovat konkrétní osobu? U anonymizace metodou Replace s 285+ typy entit na strukturovaný text je tato pravděpodobnost velmi nízká.
Zamýšlené použití. Jaký model bude trénován? Jaký je účel trénování?

Dávkové zpracování automaticky poskytuje položky 2 a 3. Položky 1, 4 a 5 dodá datový vědec.

Viz dávkové API anonym.legal, jak jsou metadata zpracování vrácena s každou úlohou.

Co získáte

Sady ML splňující GDPR jsou dosažitelné bez vlastních skriptů, bez vícedenních prodlev a bez ztráty kvality modelu.

Metoda Replace zachovává vlastnosti přirozeného jazyka důležité pro trénování NLP. Odstraňuje osobní údaje, které vytvářejí riziko porušení GDPR.

45 minut dávkového zpracování je rozdílem mezi zpožděným compliance přezkoumáním a přímočarým schválením DPO.

Zdroje

Související články

Technické

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

Anonymizace trénovacích dat ML v souladu s GDPR

Jeden skript nestačí

Problém s jednorázovými skripty

Průvodce dávkovým zpracováním

Replace vs. Redact pro použití v ML

Schrems II a přeshraniční přenosy

Co předat DPO

Co získáte

Zdroje

Související články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Připraveni chránit svá data?

Anonymizace trénovacích dat ML v souladu s GDPR

Jeden skript nestačí

Proč GDPR omezuje použití dat pro trénování ML

Problém s jednorázovými skripty

Průvodce dávkovým zpracováním

Replace vs. Redact pro použití v ML

Schrems II a přeshraniční přenosy

Co předat DPO

Co získáte

Zdroje

Související články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow