Daudzvalodu personas datu noteikšana VDAR atbilstībai

Atjaunināts 2026. gadam

Slēptā VDAR plaisa

VDAR nav valodas preferences. 4.(1) pants definē "personas datus" bez valodas nosaukšanas. Vācu Steuer-ID ir tikpat aizsargāta kā ASV sociālās apdrošināšanas numurs. Franču NIR ir tikpat regulēts kā Apvienotās Karalistes Nacionālās apdrošināšanas numurs.

Vairums personas datu noteikšanas rīku tika veidoti tikai angļu valodai.

ACL 2024 pētījums atklāja, ka hibrīdā NLP rīki sasniedz F1 rādītājus 0,60–0,83 Eiropas lokālām. Tikai angļu valodas rīki nacionālo ID formātiem neangliskā valodā iegūst gandrīz nulli. Atšķirība ir acīmredzama. Rīks var uztvert 95% angļu personas datu. Tomēr tas palaiž garām 40–60% vācu, franču, poļu vai nīderlandiešu personas datu tajā pašā failā. Tā ir nopietna problēma. Tā pakļauj uzņēmumus riskam.

Šī ir reāla VDAR plaisa. Tā skar gandrīz katru globālo uzņēmumu, kas izmanto angļu centriskus rediģēšanas rīkus. Skatiet mūsu VDAR rokasgrāmatu plašākai informācijai.

Kāpēc personas dati ir lokāli specifiski

Personas datu noteikšanai ir divas daļas.

Pirmā ir modeļu bāzēta skenēšana. Tā aptver strukturētos ID, piemēram, nodokļu numurus un tālruņa formātus.

Otrā ir NER bāzēta skenēšana. Tā aptver kontekstuālās entitātes, piemēram, vārdus un adreses.

Abas daļas ir atkarīgas no lokāles.

Strukturētie ID atšķiras pēc valsts

Valsts	Nodokļu ID	Formāts	Validācija
Vācija	Steuer-ID	11 cipari	Modulo-11
Francija	NIR	15 cipari + 2 ciparu atslēga	INSEE
Zviedrija	Personnummer	10 cipari	Luhn
Polija	PESEL	11 cipari	Modulo-10
Nīderlande	BSN	9 cipari	Elfproef
Spānija	DNI/NIE	8 cipari + burts	Modulo-23
Itālija	Codice Fiscale	16 simboli	Pielāgota kontrolsumma

Tikai angļu valodas regex SSN (NNN-NN-NNNN) neatbildīs nevienam no šiem formātiem. Katram vajadzīgs savs regex. Katram arī vajadzīga sava kontrolsummas loģika.

NER vajadzīgi vietējie modeļi

Vācu vārdi atšķiras no angļu. "Hans-Dieter Muller" ir skaidrs vietējam vācu modelim. Angļu apmācīts modelis bieži palaiž garām šādus vārdus.

Viltus pozitīvie rezultāti arī ir problēma. Microsoft Presidio izsekošanas sistēma uzrāda vācu vārdus, kas tiek nepareizi klasificēti kā angļu personas dati. Vārds "Null" (vācu val.: nulle) ir viens piemērs. Tas izraisa viltus vārdu atbilsmes angļu apmācītos modeļos. Ražošanas izmantošanā kļūdu koeficients palielinās līdz 3 viltus pozitīviem uz katru reālo entitāti (Alvaro et al., 2024).

Regulatīvais risks

ES datu iestādes apzinās šo problēmu. Vairākas nacionālās DPA ir izdevušas norādījumus.

Vācu BfDI: VDAR 5.(1).(f) pants attiecas uz visiem ierakstiem. Tas aptver neangliskos datus, ko apstrādā trešo pušu rīki.

Franču CNIL: 2024. gada CNIL gada ziņojums izteica bažas. Tas atzīmēja AI rīkus, kas apstrādā franču ierakstus bez franču lokāles personas datu skenēšanas.

ES DPA kopumā: VDAR 25. pants (Privātums pēc dizaina) prasa aizsardzību, kas pielāgota faktiskajiem apstrādātajiem ierakstiem. Tas ietver neangliskos personas datus globālos izvietojumos.

Risks ir skaidrs. Uzņēmums VDAR auditā var parādīt 95% personas datu noteikšanu angļu saturā. Bet, ja tas arī apstrādā vācu, franču un poļu ierakstus ar to pašu rīku, parādīsies robi. Revizori pamanīs. Var sekot naudas sodi. Skatiet mūsu aizsardzības lapu, kā mēs to risinām.

Trīs līmeņu dizains

Pētījumi un ražošanas prakse vienojas par trīs līmeņu hibrīda dizainu kā labāko pieeju.

1. līmenis: Vietējie spaCy modeļi

spaCy nodrošina apmācītus modeļus 25 lokālām. Tie ietver vācu, franču, spāņu, portugāļu, itāļu, nīderlandiešu, krievu, ķīniešu, japāņu, korejiešu un poļu valodu. Katrs modelis apmācīts uz vietējo tekstu. Tie mācās katras lokāles sintakses un entitāšu modeļus. Tas ir svarīgi. Vietējā apmācība nozīmē labāku atsaukumu un mazāk viltus pozitīvo.

Vācu valodai: de_core_news_lg apstrādā salikteņus un vācu vārdu modeļus. Franču valodai: fr_core_news_lg apstrādā franču entitātes, titulus, vietu nosaukumus un organizācijas.

Vietējie modeļi pārspēj starptautiskos modeļus vārdu skenēšanai augstas resursu lokālās.

2. līmenis: Stanza vairāk lokālēm

Stanford Stanza bibliotēka aptver lokāles, kuras nav spaCy. Tās ietver horvātu, slovēniešu un ukraiņu valodu. Tas palielina piekļuvi ES runātāju grupām, ko spaCy neapkalpo. Stanza ir bezmaksas un atvērtā koda. Tā labi integrējas ar pārējo komplektu.

3. līmenis: XLM-RoBERTa plašākai piekļuvei

Lokālēm, kur spaCy un Stanza trūkst NER modeļu, XLM-RoBERTa aizpilda plaisu. Tas apmācīts uz Common Crawl tekstu 100 lokālās. Tas sasniedz 91,4% starptautisko F1 personas datu noteikšanai (HuggingFace 2024). Tas labi apstrādā kodu maiņu. Tā ir galvenā funkcija. Tas svarīgi, kad viens dokuments satur tekstu vairākās lokālās vienlaikus.

Apmeklējiet mūsu tokenu sistēmas dokumentus, lai uzzinātu, kā API zvani mērogojas ar daudzvalodu apjomu.

Lokālei specifiskie entitāšu tipi

Modeļi vien nav pietiekami. VDAR saskaņošanai arī vajadzīgs entitāšu tipa tvērums valstij specifiskiem ID.

ES nacionālie ID pēc valsts:

DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
FR: NIR, SIREN, SIRET
PL: PESEL, NIP, REGON
NL: BSN
SE: Personnummer, Samordningsnummer
ES: DNI, NIE, NIF, CIF
IT: Codice Fiscale, Partita IVA

Tālruņa formāti: Katrai ES valstij ir unikālas prefiksa struktūras. +49, +33 un +48 katram vajadzīga sava validācijas loģika.

Adrešu formāti: Pasta kodi ļoti atšķiras. Vācu PLZ izmanto 5 ciparus. Franču kodi izmanto 5 ciparus (01–99 diapazons). Apvienotās Karalistes pasta kodi ir burtciparisks. Spāņu kodi izmanto 5 ciparus (01000–52999).

Reālās pasaules gadījums: Šveices farmācijas uzņēmums

Šveices uzņēmums apstrādā darba līgumus. Katrs līgums sajauc vācu, franču un angļu tekstu. Šveicē ir četras oficiālās valodas. Viņu rīks bija iestatīts tikai vācu valodai. Tas palaidīs garām visus franču sekciju personas datus.

Īenēvas bāzēta darbinieka līgums ietvēra franču AVS numuru (13 cipari), Šveices bankas IBAN un vārdu franču formātā. Tikai vācu rīks palaidīs garām franču formāta vārdu. Tas neatradīs franču AVS numuru. Tas tikai daļēji noteiks IBAN.

Trīs līmeņu pieeja apstrādā visu dokumentu. Tā nosaka lokāli katrā teksta segmentā. Tā piemēro pareizo NER modeli katrai daļai. Tā validē katru nacionālo ID ar pareizo valsts loģiku.

Jauktas lokāles dokumenti

Vissarežģītākais gadījums ir dokumenta iekšienē esošā lokāļu maiņa. Piemēri:

Vācu uzņēmuma angļu līgums ar vācu darbinieku ierakstiem (vārdi, nodokļu ID)
Franču VDAR piekrišanas veidlapa ar angļu privātuma fragmentu
Tērzēšana, kurā aģents atbild angliski un klients raksta arābiski

XLM-RoBERTa to apstrādā dabiski. Tam nav vajadzīgu skaidru lokāles atzīmju. Tas apstrādā jauktas lokāles tekstu bez iepriekšējas segmentācijas. Tas ietaupa laiku. Tas arī izvairās no kļūdām no nepareizas dalīšanas.

Ražošanas izmantošanai, apvienojot automātisko lokāles noteikšanu (teikuma līmenī) ar XLM-RoBERTa secinājumiem, tiek nodrošināta stabila jauktas lokāles dokumentu apstrāde.

Praktiskie soļi

Auditējiet sava rīka tvērumu. Jautājiet savam rediģēšanas pārdevējam par F1 rādītājiem jūsu specifiskajām lokālēm. "Atbalsta 20 valodas" bieži nozīmē, ka rīks vispirms nosūta tekstu caur mašīntulkošanu. Tā nav vietējā skenēšana.

Kartējiet savus ierakstus uz lokālēm. Veiciet ierakstu inventarizāciju, kas ietver lokāļu sadalījumu. Globāls uzņēmums ar 70% angļu, 20% vācu un 10% franču saskaras ar atšķirīgiem riskiem. Viens ar 95% angļu ir atšķirīgā pozīcijā.

Testējiet ar nacionālo ID paraugiem. Veidojiet testa kopu ar 10 nacionālo ID piemēriem jūsu darbībā — Steuer-ID, NIR, PESEL, BSN un citiem. Pārbaudiet noteikšanas koeficientus. Tas ir ātrāk nekā pilns F1 tests.

Pārskatiet savus DPIA. Pārbaudiet, vai lokāles tvērums ir iekļauts. Nepilnīgs DPIA, kas pieņem tikai angļu valodas ierakstus, var prasīt atjauninājumu. Rīkojieties tagad. Negaidiet, kamēr audits atklāj plaisu.

Pilnām entitāšu tipa definīcijām skatiet entitāšu atsauci un BUJ. Plāniem un API zvanu koeficientiem apmeklējiet cenas.

anonym.legal personas datu noteikšanas dzinējs izmanto trīs līmeņu daudzvalodu pieeju. Tas aptver 25 augstas resursu lokāles caur vietējiem spaCy modeļiem. Stanza pievieno papildu lokāles tvērumu. XLM-RoBERTa starptautiskie transformatoru modeļi paplašina tvērumu līdz 48 lokālēm. Valstij specifiskie entitāšu tipi visām ES dalībvalstīm ir iekļauti.

Avoti

Saistītie Raksti

GDPR un Atbilstība

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

Sākt Bezmaksas Izmēģinājumu Skatīt Funkcijas

Daudzvalodu personas datu noteikšana VDAR atbilstībai