Daudzvalodu personas datu noteikšana VDAR atbilstībai
Atjaunināts 2026. gadam
Slēptā VDAR plaisa
VDAR nav valodas preferences. 4.(1) pants definē "personas datus" bez valodas nosaukšanas. Vācu Steuer-ID ir tikpat aizsargāta kā ASV sociālās apdrošināšanas numurs. Franču NIR ir tikpat regulēts kā Apvienotās Karalistes Nacionālās apdrošināšanas numurs.
Vairums personas datu noteikšanas rīku tika veidoti tikai angļu valodai.
ACL 2024 pētījums atklāja, ka hibrīdā NLP rīki sasniedz F1 rādītājus 0,60–0,83 Eiropas lokālām. Tikai angļu valodas rīki nacionālo ID formātiem neangliskā valodā iegūst gandrīz nulli. Atšķirība ir acīmredzama. Rīks var uztvert 95% angļu personas datu. Tomēr tas palaiž garām 40–60% vācu, franču, poļu vai nīderlandiešu personas datu tajā pašā failā. Tā ir nopietna problēma. Tā pakļauj uzņēmumus riskam.
Šī ir reāla VDAR plaisa. Tā skar gandrīz katru globālo uzņēmumu, kas izmanto angļu centriskus rediģēšanas rīkus. Skatiet mūsu VDAR rokasgrāmatu plašākai informācijai.
Kāpēc personas dati ir lokāli specifiski
Personas datu noteikšanai ir divas daļas.
Pirmā ir modeļu bāzēta skenēšana. Tā aptver strukturētos ID, piemēram, nodokļu numurus un tālruņa formātus.
Otrā ir NER bāzēta skenēšana. Tā aptver kontekstuālās entitātes, piemēram, vārdus un adreses.
Abas daļas ir atkarīgas no lokāles.
Strukturētie ID atšķiras pēc valsts
| Valsts | Nodokļu ID | Formāts | Validācija |
|---|---|---|---|
| Vācija | Steuer-ID | 11 cipari | Modulo-11 |
| Francija | NIR | 15 cipari + 2 ciparu atslēga | INSEE |
| Zviedrija | Personnummer | 10 cipari | Luhn |
| Polija | PESEL | 11 cipari | Modulo-10 |
| Nīderlande | BSN | 9 cipari | Elfproef |
| Spānija | DNI/NIE | 8 cipari + burts | Modulo-23 |
| Itālija | Codice Fiscale | 16 simboli | Pielāgota kontrolsumma |
Tikai angļu valodas regex SSN (NNN-NN-NNNN) neatbildīs nevienam no šiem formātiem. Katram vajadzīgs savs regex. Katram arī vajadzīga sava kontrolsummas loģika.
NER vajadzīgi vietējie modeļi
Vācu vārdi atšķiras no angļu. "Hans-Dieter Muller" ir skaidrs vietējam vācu modelim. Angļu apmācīts modelis bieži palaiž garām šādus vārdus.
Viltus pozitīvie rezultāti arī ir problēma. Microsoft Presidio izsekošanas sistēma uzrāda vācu vārdus, kas tiek nepareizi klasificēti kā angļu personas dati. Vārds "Null" (vācu val.: nulle) ir viens piemērs. Tas izraisa viltus vārdu atbilsmes angļu apmācītos modeļos. Ražošanas izmantošanā kļūdu koeficients palielinās līdz 3 viltus pozitīviem uz katru reālo entitāti (Alvaro et al., 2024).
Regulatīvais risks
ES datu iestādes apzinās šo problēmu. Vairākas nacionālās DPA ir izdevušas norādījumus.
Vācu BfDI: VDAR 5.(1).(f) pants attiecas uz visiem ierakstiem. Tas aptver neangliskos datus, ko apstrādā trešo pušu rīki.
Franču CNIL: 2024. gada CNIL gada ziņojums izteica bažas. Tas atzīmēja AI rīkus, kas apstrādā franču ierakstus bez franču lokāles personas datu skenēšanas.
ES DPA kopumā: VDAR 25. pants (Privātums pēc dizaina) prasa aizsardzību, kas pielāgota faktiskajiem apstrādātajiem ierakstiem. Tas ietver neangliskos personas datus globālos izvietojumos.
Risks ir skaidrs. Uzņēmums VDAR auditā var parādīt 95% personas datu noteikšanu angļu saturā. Bet, ja tas arī apstrādā vācu, franču un poļu ierakstus ar to pašu rīku, parādīsies robi. Revizori pamanīs. Var sekot naudas sodi. Skatiet mūsu aizsardzības lapu, kā mēs to risinām.
Trīs līmeņu dizains
Pētījumi un ražošanas prakse vienojas par trīs līmeņu hibrīda dizainu kā labāko pieeju.
1. līmenis: Vietējie spaCy modeļi
spaCy nodrošina apmācītus modeļus 25 lokālām. Tie ietver vācu, franču, spāņu, portugāļu, itāļu, nīderlandiešu, krievu, ķīniešu, japāņu, korejiešu un poļu valodu. Katrs modelis apmācīts uz vietējo tekstu. Tie mācās katras lokāles sintakses un entitāšu modeļus. Tas ir svarīgi. Vietējā apmācība nozīmē labāku atsaukumu un mazāk viltus pozitīvo.
Vācu valodai: de_core_news_lg apstrādā salikteņus un vācu vārdu modeļus.
Franču valodai: fr_core_news_lg apstrādā franču entitātes, titulus, vietu nosaukumus un organizācijas.
Vietējie modeļi pārspēj starptautiskos modeļus vārdu skenēšanai augstas resursu lokālās.
2. līmenis: Stanza vairāk lokālēm
Stanford Stanza bibliotēka aptver lokāles, kuras nav spaCy. Tās ietver horvātu, slovēniešu un ukraiņu valodu. Tas palielina piekļuvi ES runātāju grupām, ko spaCy neapkalpo. Stanza ir bezmaksas un atvērtā koda. Tā labi integrējas ar pārējo komplektu.
3. līmenis: XLM-RoBERTa plašākai piekļuvei
Lokālēm, kur spaCy un Stanza trūkst NER modeļu, XLM-RoBERTa aizpilda plaisu. Tas apmācīts uz Common Crawl tekstu 100 lokālās. Tas sasniedz 91,4% starptautisko F1 personas datu noteikšanai (HuggingFace 2024). Tas labi apstrādā kodu maiņu. Tā ir galvenā funkcija. Tas svarīgi, kad viens dokuments satur tekstu vairākās lokālās vienlaikus.
Apmeklējiet mūsu tokenu sistēmas dokumentus, lai uzzinātu, kā API zvani mērogojas ar daudzvalodu apjomu.
Lokālei specifiskie entitāšu tipi
Modeļi vien nav pietiekami. VDAR saskaņošanai arī vajadzīgs entitāšu tipa tvērums valstij specifiskiem ID.
ES nacionālie ID pēc valsts:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Tālruņa formāti: Katrai ES valstij ir unikālas prefiksa struktūras. +49, +33 un +48 katram vajadzīga sava validācijas loģika.
Adrešu formāti: Pasta kodi ļoti atšķiras. Vācu PLZ izmanto 5 ciparus. Franču kodi izmanto 5 ciparus (01–99 diapazons). Apvienotās Karalistes pasta kodi ir burtciparisks. Spāņu kodi izmanto 5 ciparus (01000–52999).
Reālās pasaules gadījums: Šveices farmācijas uzņēmums
Šveices uzņēmums apstrādā darba līgumus. Katrs līgums sajauc vācu, franču un angļu tekstu. Šveicē ir četras oficiālās valodas. Viņu rīks bija iestatīts tikai vācu valodai. Tas palaidīs garām visus franču sekciju personas datus.
Īenēvas bāzēta darbinieka līgums ietvēra franču AVS numuru (13 cipari), Šveices bankas IBAN un vārdu franču formātā. Tikai vācu rīks palaidīs garām franču formāta vārdu. Tas neatradīs franču AVS numuru. Tas tikai daļēji noteiks IBAN.
Trīs līmeņu pieeja apstrādā visu dokumentu. Tā nosaka lokāli katrā teksta segmentā. Tā piemēro pareizo NER modeli katrai daļai. Tā validē katru nacionālo ID ar pareizo valsts loģiku.
Jauktas lokāles dokumenti
Vissarežģītākais gadījums ir dokumenta iekšienē esošā lokāļu maiņa. Piemēri:
- Vācu uzņēmuma angļu līgums ar vācu darbinieku ierakstiem (vārdi, nodokļu ID)
- Franču VDAR piekrišanas veidlapa ar angļu privātuma fragmentu
- Tērzēšana, kurā aģents atbild angliski un klients raksta arābiski
XLM-RoBERTa to apstrādā dabiski. Tam nav vajadzīgu skaidru lokāles atzīmju. Tas apstrādā jauktas lokāles tekstu bez iepriekšējas segmentācijas. Tas ietaupa laiku. Tas arī izvairās no kļūdām no nepareizas dalīšanas.
Ražošanas izmantošanai, apvienojot automātisko lokāles noteikšanu (teikuma līmenī) ar XLM-RoBERTa secinājumiem, tiek nodrošināta stabila jauktas lokāles dokumentu apstrāde.
Praktiskie soļi
Auditējiet sava rīka tvērumu. Jautājiet savam rediģēšanas pārdevējam par F1 rādītājiem jūsu specifiskajām lokālēm. "Atbalsta 20 valodas" bieži nozīmē, ka rīks vispirms nosūta tekstu caur mašīntulkošanu. Tā nav vietējā skenēšana.
Kartējiet savus ierakstus uz lokālēm. Veiciet ierakstu inventarizāciju, kas ietver lokāļu sadalījumu. Globāls uzņēmums ar 70% angļu, 20% vācu un 10% franču saskaras ar atšķirīgiem riskiem. Viens ar 95% angļu ir atšķirīgā pozīcijā.
Testējiet ar nacionālo ID paraugiem. Veidojiet testa kopu ar 10 nacionālo ID piemēriem jūsu darbībā — Steuer-ID, NIR, PESEL, BSN un citiem. Pārbaudiet noteikšanas koeficientus. Tas ir ātrāk nekā pilns F1 tests.
Pārskatiet savus DPIA. Pārbaudiet, vai lokāles tvērums ir iekļauts. Nepilnīgs DPIA, kas pieņem tikai angļu valodas ierakstus, var prasīt atjauninājumu. Rīkojieties tagad. Negaidiet, kamēr audits atklāj plaisu.
Pilnām entitāšu tipa definīcijām skatiet entitāšu atsauci un BUJ. Plāniem un API zvanu koeficientiem apmeklējiet cenas.
anonym.legal personas datu noteikšanas dzinējs izmanto trīs līmeņu daudzvalodu pieeju. Tas aptver 25 augstas resursu lokāles caur vietējiem spaCy modeļiem. Stanza pievieno papildu lokāles tvērumu. XLM-RoBERTa starptautiskie transformatoru modeļi paplašina tvērumu līdz 48 lokālēm. Valstij specifiskie entitāšu tipi visām ES dalībvalstīm ir iekļauti.
Avoti
- ACL 2024: Hibrīdā personas datu noteikšana Eiropas lokālēm
- Mērogojams daudzvalodu personas datu anotācijas ietvars (arXiv 2025)
- HuggingFace XLM-RoBERTa starptautiskie NER etaloni
- Microsoft Presidio GitHub problēma #1071 — Vācu viltus pozitīvie
- EDPB pamatnostādnes par 25. pantu Privātums pēc dizaina
- CNIL 2024. gada pārskats