Atpakaļ uz BloguGDPR un Atbilstība

Kāpēc Jūsu PII Atklāšanas Rīks Ir Tikai...

Vācu Steuer-ID, Franču NIR, un Zviedrijas Personnummer visi nepieciešams dažādu atklāšanas loģika.

March 3, 202610 min lasīšanai
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Slēptā GDPR Atbilstības Sprauga

GDPR neizskatās valodas vēlmju. 4. Raksts (1) definē "personīgo datu" bez atsauces uz valodu, kurā tas parādās. Vācu Steuer-ID ir tikpat aizsargāts kā ASV Sociālā drošības numurs. Franču NIR ir tikpat regulēts kā Apvienotās Karalistes Nacionālo apdrošināšanas numurs.

Bet lielākā daļa PII atklāšanas rīki bija veidoti angļu valodai.

Pētījumi publicēti ACL 2024 konstatēja, ka hibrīdi NLP pieejas sasniedz F1 punktus 0.60-0.83 Eiropas novietņu — bet angļu-vienīgi rīki, kas piemēroti neanglīski tekstā, viņu tuvu nullei strukturētas nacionālo identifikatorus. Praktiskā implikācija: anomimiāzācijas rīks izvietota visā multinacionālu organizāciju varētu būtu atklājot 95% no Angļu PII, bet nozaudējot 40-60% no Vācu, Franču, Poļu vai Nīderlandes PII tajā pašā datu kopā.

Šī ir sistemātiska GDPR atbilstības sprauga, kas ietekmē praktiski katru multinacionālu uzņēmuma, kas izmanto angļu-centrisku anomimiāzācijas rīki.

Kāpēc PII Ir Valodas-Specifisks

PII atklāšanai ir divi komponenti: modeļa-pamatota atklāšana (strukturēti identifikatori kā nodokļu ID, tālruņu formāti) un NER-pamatota atklāšana (konteksta elementi kā personas vārdi, organizāciju vārdi, adreses).

Abi komponenti ir dziļi valodas-specifisks.

Strukturētie Identifikatori Atšķiras Dramatiski pa Valsti

ValstsNodokļu IdentifikatorsFormātsAtklāšanas Prasība
VācijaSteuer-ID11 cipari, checksum algoritmsModulo-11 validācija
FrancijaNIR......

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.