Skrita razlika skladnosti GDPR
GDPR nima jezikove preference. Članek 4(1) definira osebne podatke brez sklica na jezik, v katerem se pojavijo. Nemška Steuer-ID je zaščitena kot številka socialne varnosti ZDA. Francoska NIR je regulirana kot britanska številka nacionalnega zavarovanja.
Ampak večina orodij za zaznavo PII je bila zgrajena za angleščino.
Raziskava, objavljeni na ACL 2024, je ugotovila, da hibridni pristupi NLP dosegajo F1 rezultate 0,60-0,83 za evropske jezike – ampak anglesko-samo orodja, napovedan na ne-angleško besedilo, ocena blizu nič za strukturirane nacionalne identifikatorje. Praktična posledica: orodje za anonimizacijo, uvedeno čez večnacionalno organizacijo, morda zaznava 95% angleščine PII, medtem ko pogrešuje 40-60% nemščine, francoščine, poljščine ali nizozemščine PII v istem naboru podatkov.
To je sistematična razlika skladnosti GDPR, ki vpliva na praktično vsako večnacionalno podjetje, ki uporablja anglesko-osrednja orodja za anonimizacijo.
Zakaj je PII glede jezika specifičen
Zaznava PII ima dve komponenti: zaznava na podlagi vzorca (strukturirani identifikatorji kot so davčne številke, formati telefonov) in zaznava na podlagi NER (kontekstne entitete kot so imena oseb, imena organizacij, naslovi).
Obе komponenti so globoko specifične za jezike.