Deteccio de PII Multilingue per al RGPD
Actualitzat per al 2026
La Bretxa Oculta del RGPD
El RGPD no te cap preferencia d'idioma. L'Article 4(1) defineix les "dades personals" sense esmentar l'idioma en que apareixen. Un Steuer-ID alemany esta tan protegit com un numero de la Seguretat Social dels EUA. Un NIR frances esta tan regulat com un numero d'asseguranca nacional del Regne Unit.
La majoria d'eines de deteccio de PII van ser construides nomes per a l'angles.
Una investigacio de ACL 2024 va trobar que les eines NLP hibrids assoleixen puntuacions F1 de 0,60-0,83 per als locals europeus. Les eines nomes en angles puntuen propers a zero per als formats d'ID nacionals no anglesos. La bretxa es crua. Una eina pot capturar el 95% de la PII en angles. Pero perd el 40-60% de la PII alemanya, francesa, polonesa o holandesa en el mateix fitxer. Aixo es un problema greu. Deixa les empreses exposades.
Aixo es una bretxa real del RGPD. Afecta gairebe totes les empreses globals que utilitzen eines de redaccio centrades en l'angles. Vegeu la nostra guia del RGPD per a mes informacio.
Per que la PII es Especifica del Local
La deteccio de PII te dues parts.
La primera es l'escaneig basat en patrons. Aixo cobreix ID estructurats com numeros fiscals i formats de telefon.
La segona es l'escaneig basat en NER. Aixo cobreix entitats contextuals com noms i adreces.
Les dues parts depenen del local.
Els ID Estructurats Difereixen per Pais
| Pais | ID Fiscal | Format | Validacio |
|---|---|---|---|
| Alemanya | Steuer-ID | 11 digits | Modul-11 |
| Franca | NIR | 15 digits + clau de 2 digits | INSEE |
| Suecia | Personnummer | 10 digits | Luhn |
| Polonia | PESEL | 11 digits | Modul-10 |
| Paisos Baixos | BSN | 9 digits | Elfproef |
| Espanya | DNI/NIE | 8 digits + lletra | Modul-23 |
| Italia | Codice Fiscale | 16 caracters | Suma de verificacio personalitzada |
Una regex en angles nomes per als SSN (NNN-NN-NNNN) no coincidira amb cap d'aquests formats. Cadascun necessita la seva propia regex. Cadascun tambe necessita la seva propia logica de suma de verificacio.
El NER Necessita Models Natius
Els noms alemanys difereixen dels anglesos. "Hans-Dieter Muller" es clar per a un model alemany natiu. Un model entrenat en angles sovint no detecta aquest tipus de noms.
Els falsos positius tambe son un problema. El rastreador de problemes de Microsoft Presidio mostra que les paraules alemanyes es classifiquen malament com a PII en angles. La paraula "Null" ("zero" en alemany) en es un exemple. Desencadena falsos encerts de noms en models entrenats en angles. En us productiu, les taxes d'error s'inflen fins a 3 falsos positius per entitat real (Alvaro et al., 2024).
Risc Regulatori
Els organismes de dades de la UE son conscients d'aquest problema. Diverses APD nacionals han emès orientacions.
BfDI alemany: L'Article 5(1)(f) del RGPD s'aplica a tots els registres. Cobreix les dades no angleses processades per eines de tercers.
CNIL francesa: L'Informe Anual de la CNIL 2024 va expressar preocupacions. Va marcar les eines d'IA que gestionen registres francesos sense escaneig de PII en local frances.
APD de la UE en general: L'Article 25 del RGPD (Privadesa per Disseny) requereix mesures de seguretat adequades per als registres reals que s'estan processant. Aixo inclou la PII no anglesa en desplegaments globals.
El risc es clar. Una empresa pot mostrar una deteccio de PII del 95% en contingut angles en una auditoria del RGPD. Pero si tambe gestiona registres alemanys, francesos i polonesos amb la mateixa eina, apareixeran llacunes. Els auditors s'hi fixen. Poden seguir multes. Vegeu la nostra pagina de mesures de seguretat per veure com ho abordem.
Disseny de Tres Nivells
La recerca i l'us productiu coincideixen en un disseny hibrid de tres nivells com el millor enfocament.
Nivell 1: Models spaCy Natius
spaCy proporciona models entrenats per a 25 locals. Aquests inclouen alemany, frances, espanyol, portugues, italia, holandes, rus, xines, japones, corea i polones. Cada model s'entrena en text natiu. Aprenen la sintaxi i els patrons d'entitats de cada local. Aixo importa. L'entrenament natiu significa un millor recall i menys falsos positius.
Per a l'alemany: de_core_news_lg gestiona els noms compostos i els patrons de noms alemanys.
Per al frances: fr_core_news_lg gestiona les entitats franceses, els titols, els noms de llocs i les organitzacions.
Els models natius superen els models translingues per a l'escaneig de noms en locals d'alts recursos.
Nivell 2: Stanza per a Mes Locals
La biblioteca Stanza de Stanford cobreix els locals que no estan a spaCy. Aquests inclouen el croata, l'eslove i l'ucraïnès. Aixo afegeix abast per als grups de parlants de la UE que spaCy no atén. Stanza es gratuit i de codi obert. S'integra be amb la resta de la pila.
Nivell 3: XLM-RoBERTa per a un Abast Ampli
Per als locals on spaCy i Stanza manquen de models NER, XLM-RoBERTa omple la llacuna. S'entrena en text de Common Crawl en 100 locals. Assoleix un F1 translingue del 91,4% per a la deteccio de PII (HuggingFace 2024). Gestiona el canvi de codi be. Aquesta es una caracteristica clau. Importa quan un document conte text en diversos locals alhora.
Visiteu la nostra documentacio del sistema de tokens per veure com les trucades a l'API escalen amb el volum multilingue.
Tipus d'Entitats Especifiques del Local
Els models sols no son suficients. L'alineacio amb el RGPD tambe requereix un ambit de tipus d'entitats per als ID especifics de cada pais.
ID Nacionals de la UE per pais:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Formats de telefon: Cada pais de la UE te estructures de prefix uniques. +49, +33 i +48 cadascun necessita la seva propia logica de validacio.
Formats d'adreca: Els codis postals varien molt. El PLZ alemany utilitza 5 digits. Els codis francesos utilitzen 5 digits (rang 01-99). Els codis postals del Regne Unit son alfanumerics. Els codis espanyols utilitzen 5 digits (01000-52999).
Cas del Mon Real: Farmaceutica Suissa
Una empresa suissa processa contractes d'ocupacio. Cada contracte barreja text en alemany, frances i angles. Suissa te quatre idiomes oficials. La seva eina estava configurada nomes per a l'alemany. Perdia tota la PII de les seccions en frances.
Un contracte per a un empleat de Ginebra incloïa un numero AVS frances (13 digits), un IBAN bancari suïs i un nom en format frances. L'eina nomes en alemany no va detectar el nom en format frances. No va trobar el numero AVS en format frances. Nomes va detectar parcialment l'IBAN.
L'enfocament de tres nivells processa el document complet. Detecta el local per segment de text. Aplica el model NER correcte per a cada part. Valida cada ID nacional amb la logica correcta del pais.
Documents amb Locals Mixtos
El cas mes dificil es la barreja de locals dins d'un document. Exemples:
- El contracte en angles d'una empresa alemanya amb registres d'empleats alemanys (noms, ID fiscals)
- Un formulari de consentiment del RGPD en frances amb un extracte de privadesa en angles
- Un xat on l'agent respon en angles i el client escriu en arab
XLM-RoBERTa gestiona aixo nativament. No necessita marques de local explicites. Processa text de local mixt sense segmentacio previa. Aixo estalvia temps. Tambe evita errors per divisions incorrectes.
Per a l'us productiu, combinar la detecci automatica de locals (a nivell de frases) amb la inferencia de XLM-RoBERTa ofereix una gestio robusta de documents amb locals mixtos.
Passos Practics
Auditeu l'abast de la vostra eina. Demaneu al vostre proveidor de redaccio les puntuacions F1 per als vostres locals especifics. "Admet 20 idiomes" sovint significa que l'eina redirigeix el text a traves de la traduccio automatica primer. Aixo no es un escaneig natiu.
Mapegeu els vostres registres als locals. Feu un inventari de registres que inclogui la distribucio de locals. Una empresa global amb un 70% d'angles, un 20% d'alemany i un 10% de frances s'enfronta a riscos diferents. Una amb un 95% d'angles esta en una posicio diferent.
Proveu amb mostres d'ID nacionals. Construiu un conjunt de proves amb 10 exemples dels ID nacionals de les vostres operacions: Steuer-ID, NIR, PESEL, BSN i d'altres. Verifiqueu les taxes de deteccio. Aixo es mes rapid que una prova F1 completa.
Reviseu les vostres EIPD. Comproveu si s'inclou l'ambit de locals. Una EIPD incompleta que assumeix registres nomes en angles pot necessitar una actualitzacio. Actueu ara. No espereu una auditoria per a trobar la llacuna.
Per a les definicions completes de tipus d'entitats, vegeu la referencia d'entitats i les PMF. Per als plans i les taxes de trucades a l'API, visiteu els preus.
El motor de deteccio de PII d'anonym.legal utilitza un enfocament multilingue de tres nivells. Cobreix 25 locals d'alts recursos a traves de models spaCy natius. Stanza afegeix abast de locals addicional. Els transformers translingues XLM-RoBERTa estenen l'abast a 48 locals. S'inclouen tipus d'entitats especifics de cada pais per a tots els estats membres de la UE.
Fonts
- ACL 2024: Deteccio de PII Hibrida per als Locals Europeus
- Marc d'Anotacio de PII Multilingue Escalable (arXiv 2025)
- Benchmarks NER Translingues XLM-RoBERTa de HuggingFace
- Microsoft Presidio GitHub Issue #1071 - Falsos Positius Alemanys
- Directrius de l'EDPB sobre l'Article 25 Privadesa per Disseny
- Informe Anual de la CNIL 2024