Vícejazyčná detekce PII pro GDPR
Aktualizováno pro rok 2026
Skrytá mezera GDPR
GDPR nemá jazykové preference. Článek 4(1) definuje osobní údaje bez ohledu na jazyk, ve kterém se nacházejí. Německý Steuer-ID je chráněn stejně jako americké číslo sociálního pojištění. Francouzský NIR je regulován stejně jako britské National Insurance number.
Většina nástrojů pro detekci PII byla navržena pouze pro angličtinu.
Výzkum z ACL 2024 zjistil, že hybridní nástroje NLP dosahují F1 skóre 0,60–0,83 pro evropská prostředí. Nástroje pouze pro angličtinu dosahují skóre blízkého nule pro neangličtina národní formáty ID. Propast je výrazná. Nástroj může zachytit 95 % anglického PII. Přitom přehlédne 40–60 % německého, francouzského, polského nebo holandského PII ve stejném souboru. To je vážný problém. Vystavuje firmy riziku.
Toto je skutečná mezera GDPR. Postihuje téměř každou globální firmu používající nástroje pro redigování zaměřené na angličtinu. Viz náš průvodce GDPR pro více informací.
Proč je PII lokálně specifické
Detekce PII má dvě části.
První je skenování na základě vzorů. Pokrývá strukturovaná ID jako daňová čísla a telefonní formáty.
Druhou je skenování pomocí NER. Pokrývá kontextové entity jako jména a adresy.
Obě části závisí na jazykovém prostředí.
Strukturovaná ID se liší podle země
| Země | Daňové ID | Formát | Validace |
|---|---|---|---|
| Německo | Steuer-ID | 11 číslic | Modulo-11 |
| Francie | NIR | 15 číslic + 2místný klíč | INSEE |
| Švédsko | Personnummer | 10 číslic | Luhn |
| Polsko | PESEL | 11 číslic | Modulo-10 |
| Nizozemsko | BSN | 9 číslic | Elfproef |
| Španělsko | DNI/NIE | 8 číslic + písmeno | Modulo-23 |
| Itálie | Codice Fiscale | 16 znaků | Vlastní kontrolní součet |
Anglický regex pro SSN (NNN-NN-NNNN) nebude odpovídat žádnému z těchto formátů. Každý potřebuje vlastní regex. Každý také potřebuje vlastní logiku kontrolního součtu.
NER vyžaduje nativní modely
Německá jména se liší od anglických. Hans-Dieter Müller je pro nativní německý model zřejmý. Model trénovaný na angličtině taková jména často přehlédne.
Falešně pozitivní výsledky jsou také problémem. Sledovač problémů Microsoft Presidio ukazuje německá slova chybně klasifikovaná jako anglické PII. Slovo Null (německy nula) je jedním příkladem. Spouští falešné detekce jmen v modelech trénovaných na angličtině. V produkčním použití chybovost narůstá na 3 falešné pozitivy na skutečnou entitu (Alvaro et al., 2024).
Regulatorní riziko
Evropské orgány pro ochranu dat si jsou tohoto problému vědomy. Několik národních DPA vydalo pokyny.
Německý BfDI: Článek 5(1)(f) GDPR se vztahuje na všechny záznamy. Pokrývá neangličtina data zpracovávaná nástroji třetích stran.
Francouzský CNIL: Výroční zpráva CNIL za rok 2024 vyjádřila obavy. Upozornila na nástroje AI, které zpracovávají francouzské záznamy bez skenování PII pro francouzské prostředí.
Evropské DPA obecně: Článek 25 GDPR (Privacy by Design) vyžaduje záruky přizpůsobené skutečně zpracovávaným záznamům. To zahrnuje neangličtina PII v globálních nasazeních.
Riziko je jasné. Firma může při auditu GDPR prokázat 95% detekci PII na anglickém obsahu. Pokud však zpracovává německé, francouzské a polské záznamy stejným nástrojem, mezery se objeví. Auditoři si toho všimnou. Pokuty mohou následovat. Viz naše stránka ochranných opatření pro způsob, jakým toto řešíme.
Třívrstvý design
Výzkum i produkční praxe se shodují na třívrstvém hybridním designu jako nejlepším přístupu.
Vrstva 1: Nativní modely spaCy
spaCy poskytuje trénované modely pro 25 prostředí. Zahrnují němčinu, francouzštinu, španělštinu, portugalštinu, italštinu, holandštinu, ruštinu, čínštinu, japonštinu, korejštinu a polštinu. Každý model trénuje na nativním textu. Učí se syntaxi a vzory entit každého prostředí. Nativní trénink znamená lepší pokrytí a méně falešných pozitivů.
Pro němčinu: de_core_news_lg zvládá složeniny a německé vzory jmen.
Pro francouzštinu: fr_core_news_lg zvládá francouzské entity, tituly, místní jména a organizace.
Nativní modely překonávají mezijazykové modely při skenování jmen na prostředích s bohatými zdroji.
Vrstva 2: Stanza pro více prostředí
Knihovna Stanza od Stanfordu pokrývá prostředí, která spaCy neobsahuje. Patří sem chorvatština, slovinština a ukrajinština. Tím se rozšiřuje dosah pro skupiny mluvčích EU, které spaCy neobsluhuje. Stanza je bezplatná a open source. Dobře se integruje se zbytkem stacku.
Vrstva 3: XLM-RoBERTa pro široký dosah
Pro prostředí, kde spaCy a Stanza nemají NER modely, zaplňuje mezeru XLM-RoBERTa. Trénuje na textu Common Crawl ve 100 prostředích. Dosahuje 91,4% mezijazykového F1 pro detekci PII (HuggingFace 2024). Dobře zvládá přepínání kódu. To je klíčová funkce pro dokumenty s textem ve více jazycích najednou.
Navštivte dokumentaci tokenovacího systému pro škálování API volání s vícejazyčným objemem.
Lokálně specifické typy entit
Modely samotné nestačí. Shoda s GDPR také vyžaduje rozsah typů entit pro ID specifická pro každou zemi.
Národní ID EU podle zemí:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Telefonní formáty: Každá země EU má unikátní struktury předvoleb. +49, +33 a +48 každá potřebuje vlastní logiku validace.
Formáty adres: Poštovní směrovací čísla se velmi liší. Německý PLZ používá 5 číslic. Francouzské kódy používají 5 číslic (rozsah 01–99). Britská PSČ jsou alfanumerická. Španělské kódy používají 5 číslic (01000–52999).
Reálný případ: Švýcarská farmaceutická firma
Švýcarská firma zpracovává pracovní smlouvy. Každá smlouva mísí německý, francouzský a anglický text. Švýcarsko má čtyři úřední jazyky. Jejich nástroj byl nastaven pouze pro němčinu. Přehlédl veškeré PII ve francouzských sekcích.
Smlouva pro zaměstnance se sídlem v Ženevě obsahovala francouzské číslo AVS (13 číslic), švýcarský bankovní IBAN a jméno ve francouzském formátu. Nástroj pouze pro němčinu přehlédl jméno ve francouzském formátu. Nenašel francouzské číslo AVS. IBAN detekoval pouze částečně.
Třívrstvý přístup zpracovává celý dokument. Detekuje prostředí pro každý textový segment. Aplikuje správný NER model pro každou část. Validuje každé národní ID správnou logikou pro danou zemi.
Dokumenty se smíšenými prostředími
Nejtěžší případ je míchání prostředí uvnitř dokumentu. Příklady:
- Anglická smlouva německé firmy s německými záznamy zaměstnanců (jména, daňová ID)
- Francouzský souhlas GDPR s anglickým výňatkem o soukromí
- Chat, kde agent odpovídá anglicky a zákazník píše arabsky
XLM-RoBERTa to zvládá nativně. Nevyžaduje explicitní příznaky prostředí. Zpracovává vícejazyčný text bez předchozí segmentace. To šetří čas a zabraňuje chybám z chybných rozdělení.
Pro produkční použití kombinace automatické detekce prostředí (na úrovni vět) s inferenčním XLM-RoBERTa poskytuje robustní zpracování vícejazyčných dokumentů.
Praktické kroky
Prověřte dosah vašeho nástroje. Požádejte svého dodavatele pro redigování o F1 skóre pro vaše konkrétní prostředí. Podpora 20 jazyků často znamená, že nástroj nejprve text překládá strojovým překladem. To není nativní skenování.
Zmapujte záznamy podle prostředí. Proveďte inventář záznamů, který zahrnuje distribuci prostředí. Globální firma se 70 % angličtiny, 20 % němčiny a 10 % francouzštiny čelí odlišným rizikům než firma s 95 % angličtiny.
Testujte s ukázkami národních ID. Sestavte testovací sadu s 10 příklady národních ID ve vašich operacích — Steuer-ID, NIR, PESEL, BSN a dalších. Ověřte míru detekce. To je rychlejší než úplný F1 test.
Zkontrolujte svá DPIA. Ověřte, zda je zahrnut rozsah prostředí. Neúplné DPIA předpokládající pouze anglické záznamy může potřebovat aktualizaci. Jednejte nyní. Nečekejte, až audit mezeru odhalí.
Úplné definice typů entit najdete v referenci entit a FAQ. Pro plány a sazby API volání navštivte ceník.
Engine pro detekci PII anonym.legal používá třívrstvý vícejazyčný přístup. Pokrývá 25 prostředí s bohatými zdroji prostřednictvím nativních modelů spaCy. Stanza přidává dosah pro další prostředí. Mezijazykové transformery XLM-RoBERTa rozšiřují rozsah na 48 prostředí. Jsou zahrnuty typy entit specifické pro každou zemi pro všechny členské státy EU.