Meertalige PII-opsporing vir GDPR
Opgedateer vir 2026
Die Versteekte GDPR-gaping
GDPR het geen taalvoorkeur nie. Artikel 4(1) definieer "persoonlike data" sonder om die taal te noem. 'n Duitse Steuer-ID is net so beskerm as 'n VS-sosialesekerheidsnommer. 'n Franse NIR is net so gereguleer as 'n UK-nasionale versekeringsnommer.
Meeste PII-opsporingsnutsmiddels is slegs vir Engels gebou.
Navorsing van ACL 2024 het bevind dat hibriede NLP-nutsmiddels F1-tellings van 0.60-0.83 vir Europese landstreke bereik. Engels-alleen-nutsmiddels gee byna nul vir nie-Engelse nasionale ID-formate. Die gaping is skerp. 'n Nutsmiddel kan 95% van Engelse PII vang. Tog mis dit 40-60% van Duitse, Franse, Poolse of Nederlandse PII in dieselfde leer. Dit is 'n ernstige probleem. Dit laat maatskappye blootgestel.
Dit is 'n werklike GDPR-gaping. Dit raak byna elke globale firma wat Engels-sentriese redigerings-nutsmiddels gebruik. Sien ons GDPR-gids vir meer.
Waarom PII Landstreek-spesifiek Is
PII-opsporing het twee dele.
Die eerste is patroongebaseerde skandering. Dit dek gestruktureerde ID's soos belastingsnommers en telefoonnommerformate.
Die tweede is NER-gebaseerde skandering. Dit dek kontekstuele entiteite soos name en adresse.
Albei dele hang van landstreek af.
Gestruktureerde ID's Verskil Per Land
| Land | Belasting-ID | Formaat | Validering |
|---|---|---|---|
| Duitsland | Steuer-ID | 11 syfers | Modulo-11 |
| Frankryk | NIR | 15 syfers + 2-syfer sleutel | INSEE |
| Swede | Personnummer | 10 syfers | Luhn |
| Pole | PESEL | 11 syfers | Modulo-10 |
| Nederland | BSN | 9 syfers | Elfproef |
| Spanje | DNI/NIE | 8 syfers + letter | Modulo-23 |
| Italie | Codice Fiscale | 16 karakters | Pasgemaakte kontrolesom |
'n Engels-alleen-regex vir SSN's (NNN-NN-NNNN) sal nie een van hierdie formate pas nie. Elkeen benodig sy eie regex. Elkeen benodig ook sy eie kontrolesom-logika.
NER Benodig Inheemse Modelle
Duitse name verskil van Engelse. "Hans-Dieter Muller" is duidelik vir 'n inheemse Duitse model. 'n Engelse-opgeleide model mis sulke name dikwels.
Valse positiewe is ook 'n probleem. Die Microsoft Presidio-probleemnasporer wys dat Duitse woorde as Engelse PII geklassifiseer word. Die woord "Null" (Duits vir "nul") is een voorbeeld. Dit veroorsaak vals naam-treffers in Engels-opgeleide modelle. In produksiegebruik styg foutkoerse tot 3 valse positiewe per werklike entiteit (Alvaro et al., 2024).
Reguleringsrisiko
EU-dataowerhede is bewus van hierdie probleem. Verskeie nasionale DPA's het leiding uitgereik.
Duitse BfDI: GDPR Artikel 5(1)(f) geld vir alle rekords. Dit dek nie-Engelse data verwerk deur derdeparty-nutsmiddels.
Franse CNIL: Die 2024 CNIL Jaarverslag het bekommernisse geopper. Dit het KI-nutsmiddels aangemerk wat Franse rekords hanteer sonder Franse-landstreek PII-skandering.
EU DPA's breed: GDPR Artikel 25 (Privaatheid by Ontwerp) vereis waarborge geskik vir die werklike rekords wat verwerk word. Dit sluit nie-Engelse PII in globale ontplooiings in.
Die risiko is duidelik. 'n Firma kan 95% PII-opsporing op Engelse inhoud in 'n GDPR-oudit wys. Maar as dit ook Duitse, Franse en Poolse rekords met dieselfde nutsmiddel hanteer, sal gapings verskyn. Ouditeure merk. Boetes kan volg. Sien ons sekuriteitsbladsy vir hoe ons dit aanspreek.
Drie-Vlak-Ontwerp
Navorsing en produksiegebruik stem saam oor 'n drie-vlak-hibriede ontwerp as die beste benadering.
Vlak 1: Inheemse spaCy-modelle
spaCy bied opgeleide modelle vir 25 landstreke. Dit sluit Duits, Frans, Spaans, Portugees, Italiaans, Nederlands, Russies, Sjinees, Japannees, Koreaans en Pools in. Elke model lei op inheemse teks op. Hulle leer die sintaksis en entiteitspatrone van elke landstreek. Dit maak saak. Inheemse opleiding beteken beter herroep en minder valse positiewe.
Vir Duits: de_core_news_lg hanteer saamgestelde selfstandige naamwoorde en Duitse naampatrone.
Vir Frans: fr_core_news_lg hanteer Franse entiteite, titels, plekname en organisasies.
Inheemse modelle klop kruistalige modelle vir naamskanderings op hoe-hulpbron-landstreke.
Vlak 2: Stanza vir Meer Landstreke
Stanford se Stanza-biblioteek dek landstreke nie in spaCy nie. Dit sluit Kroaties, Sloweens en Oekraiens in. Dit voeg bereik by vir EU-sprekersgroepe wat spaCy nie bedien nie. Stanza is gratis en oopbron. Dit integreer goed met die res van die stapel.
Vlak 3: XLM-RoBERTa vir Bree Bereik
Vir landstreke waar spaCy en Stanza NER-modelle ontbreek, vul XLM-RoBERTa die gaping. Dit lei op Common Crawl-teks oor 100 landstreke op. Dit bereik 91,4% kruistalige F1 vir PII-opsporing (HuggingFace 2024). Dit hanteer kodewisseling goed. Dit is 'n sleutelkenmerk. Dit maak saak wanneer een dokument teks in verskeie landstreke terselfdertyd het.
Besoek ons tokenstelsel-dokumentasie om te sien hoe API-oproeptye skaleer met meertalige volume.
Landstreek-spesifieke Entiteitstipes
Modelle alleen is nie genoeg nie. GDPR-belyning vereis ook entiteitstipe-omvang vir landspesifieke ID's.
EU Nasionale ID's per land:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Telefoonnommerformate: Elke EU-land het unieke voorvoegselstrukture. +49, +33 en +48 elk benodig hul eie valideringslogika.
Adresformate: Poskodes verskil wyd. Duits PLZ gebruik 5 syfers. Franse kodes gebruik 5 syfers (01-99-reeks). UK-poskodes is alfanumeries. Spaanse kodes gebruik 5 syfers (01000-52999).
Werklike-wereld Geval: Switserse Farmaseutiese Maatskappy
'n Switserse firma verwerk werknemerskontrakte. Elke kontrak meng Duitse, Franse en Engelse teks. Switserland het vier amptelike tale. Hul nutsmiddel was slegs vir Duits opgestel. Dit het alle Franse-afdeling-PII gemis.
'n Kontrak vir 'n Geneve-gebaseerde werknemer het 'n Franse AVS-nommer (13 syfers), 'n Switserse bank-IBAN en 'n naam in Franse formaat ingesluit. Die Duits-alleen-nutsmiddel het die Frans-formaat-naam gemis. Dit het die Franse AVS-nommer nie gevind nie. Dit het die IBAN slegs gedeeltelik opgespoor.
Die drie-vlak-benadering verwerk die hele dokument. Dit stel landstreek per tekssegment op. Dit pas die regte NER-model vir elke deel toe. Dit valideer elke nasionale ID met die korrekte landlogika.
Gemengde-landstreek Dokumente
Die moeilikste geval is intra-dokument-landstreek-vermenging. Voorbeelde:
- 'n Duitse firma se Engelse kontrak met Duitse werknemersrekords (name, belasting-ID's)
- 'n Franse GDPR-toestemmingsvorm met 'n Engelse privaatheidsuittreksel
- 'n Gesels waar die agent in Engels antwoord en die klient in Arabies skryf
XLM-RoBERTa hanteer dit inheems. Dit benodig geen eksplisiete landstreekmerkers nie. Dit verwerk gemengde-landstreekteks sonder voorafgaande verdeling. Dit bespaar tyd. Dit vermy ook foute van foutiewe verdelings.
Vir produksiegebruik gee die kombinasie van outomatiese landstreekopsporing (op sinsvlak) met XLM-RoBERTa-inferensie robuuste hantering van gemengde-landstreekdokumente.
Praktiese Stappe
Oudit jou nutsmiddel se bereik. Vra jou redigerings-verskaffer vir F1-tellings vir jou spesifieke landstreke. "Ondersteun 20 tale" beteken dikwels dat die nutsmiddel teks eers deur masjienervertaling stuur. Dit is nie inheemse skandering nie.
Karteer jou rekords na landstreke. Doen 'n rekords-inventaris wat landstreekverdeling insluit. 'n Globale firma met 70% Engels, 20% Duits en 10% Frans staan voor verskillende risiko's. Een met 95% Engels is in 'n ander posisie.
Toets met nasionale ID-monsters. Bou 'n toetsstel met 10 voorbeelde van die nasionale ID's in jou bedrywighede -- Steuer-ID, NIR, PESEL, BSN en andere. Verifieer opsporingskoerse. Dit is vinniger as 'n volledige F1-toets.
Hersien jou DPIA's. Kyk of landstreek-omvang ingesluit is. 'n Onvolledige DPIA wat Engels-alleen-rekords aanvaar, mag dalk 'n opdatering benodig. Tree nou op. Wag nie vir 'n oudit om die gaping te vind nie.
Vir volledige entiteitstipe-definisies, sien die entiteitsreferensie en die FAQ. Vir planne en API-oproepkoerse, besoek pryse.
anonym.legal se PII-opsporingsenjin gebruik 'n drie-vlak-meertalige benadering. Dit dek 25 hoe-hulpbron-landstreke via inheemse spaCy-modelle. Stanza voeg ekstra landstreekbereik by. XLM-RoBERTa-kruistalige transformers brei omvang uit na 48 landstreke. Landspesifieke entiteitstipes vir alle EU-lidstate is ingesluit.
Bronne
- ACL 2024: Hybrid PII Detection for European Locales
- Scalable Multilingual PII Annotation Framework (arXiv 2025)
- HuggingFace XLM-RoBERTa Cross-Lingual NER Benchmarks
- Microsoft Presidio GitHub Issue #1071 -- German False Positives
- EDPB Guidelines on Article 25 Privacy by Design
- CNIL 2024 Annual Report