Anglocentrismus PII nástrojů
Většina komerčních PII detekčních nástrojů byla primárně navržena pro anglický jazyk. I nástroje s „vícejazyčnou" podporou typicky:
- Prioritizují anglické modely pro přesnost a vývoj
- Pokrývají pouze 10–15 nejrozšířenějších jazyků
- Chybí specifické entity pro regionální právní identifikátory
Pro firmy v EU zpracovávající zákaznická data v češtině, slovenštině, polštině, maďarštině, rumunštině nebo jiných méně rozšířených evropských jazycích – to je vážný problém.
Co EU firmy zpracovávají
Typická EU firma se zákazníky napříč Evropou zpracovává data v:
| Jazyk | Firmy s zákazníky | Typická PII |
|---|---|---|
| Němčina | 83M mluvčích v EU | Steuer-ID, Personalausweis |
| Francouzština | 68M mluvčích v EU | NIR, numéro de sécurité sociale |
| Polština | 38M mluvčích | PESEL, NIP |
| Čeština | 11M mluvčích | Rodné číslo, IČO |
| Maďarština | 10M mluvčích | TAJ-szám, adószám |
| Rumunština | 20M mluvčích | CNP, CIF |
| Slovenština | 5M mluvčích | Rodné číslo, IČO |
Případ: Česká SaaS firma
Česká SaaS firma s zákazníky v 8 evropských zemích zpracovávala zákaznické tickety v češtině, slovenštině, polštině, němčině a maďarštině.
Používali „vícejazyčný" PII nástroj – ale testování odhalilo:
- Česká rodná čísla: 0% detekce (nástroj nebyl trénován pro tento formát)
- Polský PESEL: 23% detekce (pouze pokud bylo nalezeno explicitním labelem)
- Maďarský TAJ-szám: 0% detekce
- Německý Steuer-ID: 67% detekce (přijatelné)
Výsledek: Tisíce zákaznických ticketů ročně zpracovány bez ochrany pro nejcitlivější identifikátory.
GDPR implikace
GDPR nerozlišuje podle jazyka. Pokud zpracováváte osobní data – bez ohledu na jazyk – musíte:
- Mít zákonný základ pro zpracování
- Implementovat odpovídající technické záruky
- Provádět DPIA pro citlivé operace
Nástroj který detekuje anglicky psané jméno ale ne české rodné číslo poskytuje falešný pocit souladu.
Jak anonym.legal řeší vícejazyčné pokrytí
Nativní jazykové modely
Pro každý ze 48 podporovaných jazyků:
- Trénovaný spaCy model pro pojmenované entity
- Nativní regex vzory pro regionální identifikátory
- Výsledky testovány na jazykových korpora
Specifické entity pro českou republiku
- Rodné číslo: Formát YYMMDD/XXXX s správnou validací (ženy: měsíc +50)
- IČO: 8-číselné identifikační číslo organizace
- DIČ: Daňové identifikační číslo (CZ + 8-10 číslic)
- Číslo OP: Formát čísla občanského průkazu
Specifické entity pro Slovensko
- Rodné číslo SK: Sdílí formát s českou verzí
- IČO SK: Identifikátor podnikání
- IČDPH: DIČ ve slovenském formátu
Specifické entity pro Polsko
- PESEL: 11-číselné s algoritmem kontrolní číslice
- NIP: Daňové ID s algoritmem pro validaci
- REGON: Státní statistické číslo
Test: Ověřte svůj PII nástroj
Otestujte váš aktuální PII nástroj na těchto vzorcích:
Česky:
Jan Novák, rodné číslo 850101/1234, bydlí na Václavské náměstí 1, Praha 1
Polsky:
Adam Kowalski, PESEL 85010112345, zamieszkały przy ul. Marszałkowskiej 1, Warszawa
Maďarsky:
Kovács János, TAJ-száma: 123-456-789, Budapest, Andrássy út 1
Pokud váš nástroj detekuje méně než 90% těchto identifikátorů, máte GDPR mezeru.
Závěr
Anglocentrismus PII nástrojů je skrytá GDPR mezera pro evropské firmy. Nástroje potřebující být „vícejazyčné" must jít za překlad – potřebují nativní jazykové modely a specifické entity pro každý trh.