Zpět na blogGDPR a shoda

Anglicky-only PII nástroje: Skrytá GDPR mezera pro...

Mnoho PII detekčních nástrojů podporuje pouze angličtinu nebo pár jazyků. Pro firmy zpracovávající evropská data v jejich rodných jazycích to...

March 20, 20268 min čtení
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Anglocentrismus PII nástrojů

Většina komerčních PII detekčních nástrojů byla primárně navržena pro anglický jazyk. I nástroje s „vícejazyčnou" podporou typicky:

  • Prioritizují anglické modely pro přesnost a vývoj
  • Pokrývají pouze 10–15 nejrozšířenějších jazyků
  • Chybí specifické entity pro regionální právní identifikátory

Pro firmy v EU zpracovávající zákaznická data v češtině, slovenštině, polštině, maďarštině, rumunštině nebo jiných méně rozšířených evropských jazycích – to je vážný problém.

Co EU firmy zpracovávají

Typická EU firma se zákazníky napříč Evropou zpracovává data v:

JazykFirmy s zákazníkyTypická PII
Němčina83M mluvčích v EUSteuer-ID, Personalausweis
Francouzština68M mluvčích v EUNIR, numéro de sécurité sociale
Polština38M mluvčíchPESEL, NIP
Čeština11M mluvčíchRodné číslo, IČO
Maďarština10M mluvčíchTAJ-szám, adószám
Rumunština20M mluvčíchCNP, CIF
Slovenština5M mluvčíchRodné číslo, IČO

Případ: Česká SaaS firma

Česká SaaS firma s zákazníky v 8 evropských zemích zpracovávala zákaznické tickety v češtině, slovenštině, polštině, němčině a maďarštině.

Používali „vícejazyčný" PII nástroj – ale testování odhalilo:

  • Česká rodná čísla: 0% detekce (nástroj nebyl trénován pro tento formát)
  • Polský PESEL: 23% detekce (pouze pokud bylo nalezeno explicitním labelem)
  • Maďarský TAJ-szám: 0% detekce
  • Německý Steuer-ID: 67% detekce (přijatelné)

Výsledek: Tisíce zákaznických ticketů ročně zpracovány bez ochrany pro nejcitlivější identifikátory.

GDPR implikace

GDPR nerozlišuje podle jazyka. Pokud zpracováváte osobní data – bez ohledu na jazyk – musíte:

  • Mít zákonný základ pro zpracování
  • Implementovat odpovídající technické záruky
  • Provádět DPIA pro citlivé operace

Nástroj který detekuje anglicky psané jméno ale ne české rodné číslo poskytuje falešný pocit souladu.

Jak anonym.legal řeší vícejazyčné pokrytí

Nativní jazykové modely

Pro každý ze 48 podporovaných jazyků:

  • Trénovaný spaCy model pro pojmenované entity
  • Nativní regex vzory pro regionální identifikátory
  • Výsledky testovány na jazykových korpora

Specifické entity pro českou republiku

  • Rodné číslo: Formát YYMMDD/XXXX s správnou validací (ženy: měsíc +50)
  • IČO: 8-číselné identifikační číslo organizace
  • DIČ: Daňové identifikační číslo (CZ + 8-10 číslic)
  • Číslo OP: Formát čísla občanského průkazu

Specifické entity pro Slovensko

  • Rodné číslo SK: Sdílí formát s českou verzí
  • IČO SK: Identifikátor podnikání
  • IČDPH: DIČ ve slovenském formátu

Specifické entity pro Polsko

  • PESEL: 11-číselné s algoritmem kontrolní číslice
  • NIP: Daňové ID s algoritmem pro validaci
  • REGON: Státní statistické číslo

Test: Ověřte svůj PII nástroj

Otestujte váš aktuální PII nástroj na těchto vzorcích:

Česky:

Jan Novák, rodné číslo 850101/1234, bydlí na Václavské náměstí 1, Praha 1

Polsky:

Adam Kowalski, PESEL 85010112345, zamieszkały przy ul. Marszałkowskiej 1, Warszawa

Maďarsky:

Kovács János, TAJ-száma: 123-456-789, Budapest, Andrássy út 1

Pokud váš nástroj detekuje méně než 90% těchto identifikátorů, máte GDPR mezeru.

Závěr

Anglocentrismus PII nástrojů je skrytá GDPR mezera pro evropské firmy. Nástroje potřebující být „vícejazyčné" must jít za překlad – potřebují nativní jazykové modely a specifické entity pro každý trh.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.