Skrytá medzera súladu GDPR
GDPR nemá jazykové preferencie. Článok 4(1) definuje "osobné údaje" bez odkazu na jazyk, v ktorom sa objavujú. Nemecká Steuer-ID je chránená rovnako ako americké číslo sociálneho poistenia. Francúzka NIR je regulovaná rovnako ako britské číslo národného poistenia.
Ale väčšina nástrojov na detekciu PII bola vytvorená pre angličtinu.
Výskum publikovaný na ACL 2024 zistil, že hybridné prístupy NLP dosahujú skóre F1 0,60-0,83 pre európske lokality—ale nástroje iba v angličtine aplikované na neangličtinový text dosahujú skóre blízko nule pre štruktúrované národné identifikátory. Praktický dôsledok: nástroj anonymizácie nasadený v multinacionálnej organizácii môže detegovať 95% anglickej PII, zatiaľ čo sa zmešká 40-60% nemeckej, francúzskej, poľskej alebo holandskej PII v rovnakom súbore údajov.
Toto je systematická medzera súladu GDPR, ktorá ovplyvňuje prakticky každý multinacionálny podnik používajúci anglické centrálne nástroje anonymizácie.
Prečo je PII jazykovo špecifická
Detekcia PII má dve zložky: detekcia založená na vzoľbe (štruktúrované identifikátory ako daňové ID, telefónne formáty) a detekcia založená na NER (kontextové entity ako mená osôb, názvy organizácií, adresy).
Obidve zložky sú hlboko jazykovo špecifické.
Štruktúrované identifikátory sa radikálne líšia podľa krajiny
| Krajina | Daňový identifikátor | Formát | Požiadavka detekcie |
|---|---|---|---|
| Nemecko | Steuer-ID | 11 číslic, algoritmus kontrolného súčtu | Validácia Modulo-11 |
| Francúzsko | NIR | ... | ... |