Späť na blogGDPR a Dodržiavanie

Prečo váš nástroj detekcie PII je GDPR-kompatibilný...

Nemecká Steuer-ID, francúzska NIR a švédska Personnummer všetky vyžadujú inú logiku detekcie.

March 3, 202610 min čítania
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Skrytá medzera súladu GDPR

GDPR nemá jazykové preferencie. Článok 4(1) definuje "osobné údaje" bez odkazu na jazyk, v ktorom sa objavujú. Nemecká Steuer-ID je chránená rovnako ako americké číslo sociálneho poistenia. Francúzka NIR je regulovaná rovnako ako britské číslo národného poistenia.

Ale väčšina nástrojov na detekciu PII bola vytvorená pre angličtinu.

Výskum publikovaný na ACL 2024 zistil, že hybridné prístupy NLP dosahujú skóre F1 0,60-0,83 pre európske lokality—ale nástroje iba v angličtine aplikované na neangličtinový text dosahujú skóre blízko nule pre štruktúrované národné identifikátory. Praktický dôsledok: nástroj anonymizácie nasadený v multinacionálnej organizácii môže detegovať 95% anglickej PII, zatiaľ čo sa zmešká 40-60% nemeckej, francúzskej, poľskej alebo holandskej PII v rovnakom súbore údajov.

Toto je systematická medzera súladu GDPR, ktorá ovplyvňuje prakticky každý multinacionálny podnik používajúci anglické centrálne nástroje anonymizácie.

Prečo je PII jazykovo špecifická

Detekcia PII má dve zložky: detekcia založená na vzoľbe (štruktúrované identifikátory ako daňové ID, telefónne formáty) a detekcia založená na NER (kontextové entity ako mená osôb, názvy organizácií, adresy).

Obidve zložky sú hlboko jazykovo špecifické.

Štruktúrované identifikátory sa radikálne líšia podľa krajiny

KrajinaDaňový identifikátorFormátPožiadavka detekcie
NemeckoSteuer-ID11 číslic, algoritmus kontrolného súčtuValidácia Modulo-11
FrancúzskoNIR......

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.