By · Last updated 2026-03-03

Tornar al BlogGDPR i Compliment

Deteccio de PII Multilingue per al RGPD

Un Steuer-ID alemany, un NIR frances i un Personnummer suec requereixen una logica de deteccio diferent. Apreneu com cobrir els 48 idiomes requerits pel RGPD.

March 3, 202610 min llegit
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Deteccio de PII Multilingue per al RGPD

Actualitzat per al 2026

La Bretxa Oculta del RGPD

El RGPD no te cap preferencia d'idioma. L'Article 4(1) defineix les "dades personals" sense esmentar l'idioma en que apareixen. Un Steuer-ID alemany esta tan protegit com un numero de la Seguretat Social dels EUA. Un NIR frances esta tan regulat com un numero d'asseguranca nacional del Regne Unit.

La majoria d'eines de deteccio de PII van ser construides nomes per a l'angles.

Una investigacio de ACL 2024 va trobar que les eines NLP hibrids assoleixen puntuacions F1 de 0,60-0,83 per als locals europeus. Les eines nomes en angles puntuen propers a zero per als formats d'ID nacionals no anglesos. La bretxa es crua. Una eina pot capturar el 95% de la PII en angles. Pero perd el 40-60% de la PII alemanya, francesa, polonesa o holandesa en el mateix fitxer. Aixo es un problema greu. Deixa les empreses exposades.

Aixo es una bretxa real del RGPD. Afecta gairebe totes les empreses globals que utilitzen eines de redaccio centrades en l'angles. Vegeu la nostra guia del RGPD per a mes informacio.

Per que la PII es Especifica del Local

La deteccio de PII te dues parts.

La primera es l'escaneig basat en patrons. Aixo cobreix ID estructurats com numeros fiscals i formats de telefon.

La segona es l'escaneig basat en NER. Aixo cobreix entitats contextuals com noms i adreces.

Les dues parts depenen del local.

Els ID Estructurats Difereixen per Pais

PaisID FiscalFormatValidacio
AlemanyaSteuer-ID11 digitsModul-11
FrancaNIR15 digits + clau de 2 digitsINSEE
SueciaPersonnummer10 digitsLuhn
PoloniaPESEL11 digitsModul-10
Paisos BaixosBSN9 digitsElfproef
EspanyaDNI/NIE8 digits + lletraModul-23
ItaliaCodice Fiscale16 caractersSuma de verificacio personalitzada

Una regex en angles nomes per als SSN (NNN-NN-NNNN) no coincidira amb cap d'aquests formats. Cadascun necessita la seva propia regex. Cadascun tambe necessita la seva propia logica de suma de verificacio.

El NER Necessita Models Natius

Els noms alemanys difereixen dels anglesos. "Hans-Dieter Muller" es clar per a un model alemany natiu. Un model entrenat en angles sovint no detecta aquest tipus de noms.

Els falsos positius tambe son un problema. El rastreador de problemes de Microsoft Presidio mostra que les paraules alemanyes es classifiquen malament com a PII en angles. La paraula "Null" ("zero" en alemany) en es un exemple. Desencadena falsos encerts de noms en models entrenats en angles. En us productiu, les taxes d'error s'inflen fins a 3 falsos positius per entitat real (Alvaro et al., 2024).

Risc Regulatori

Els organismes de dades de la UE son conscients d'aquest problema. Diverses APD nacionals han emès orientacions.

BfDI alemany: L'Article 5(1)(f) del RGPD s'aplica a tots els registres. Cobreix les dades no angleses processades per eines de tercers.

CNIL francesa: L'Informe Anual de la CNIL 2024 va expressar preocupacions. Va marcar les eines d'IA que gestionen registres francesos sense escaneig de PII en local frances.

APD de la UE en general: L'Article 25 del RGPD (Privadesa per Disseny) requereix mesures de seguretat adequades per als registres reals que s'estan processant. Aixo inclou la PII no anglesa en desplegaments globals.

El risc es clar. Una empresa pot mostrar una deteccio de PII del 95% en contingut angles en una auditoria del RGPD. Pero si tambe gestiona registres alemanys, francesos i polonesos amb la mateixa eina, apareixeran llacunes. Els auditors s'hi fixen. Poden seguir multes. Vegeu la nostra pagina de mesures de seguretat per veure com ho abordem.

Disseny de Tres Nivells

La recerca i l'us productiu coincideixen en un disseny hibrid de tres nivells com el millor enfocament.

Nivell 1: Models spaCy Natius

spaCy proporciona models entrenats per a 25 locals. Aquests inclouen alemany, frances, espanyol, portugues, italia, holandes, rus, xines, japones, corea i polones. Cada model s'entrena en text natiu. Aprenen la sintaxi i els patrons d'entitats de cada local. Aixo importa. L'entrenament natiu significa un millor recall i menys falsos positius.

Per a l'alemany: de_core_news_lg gestiona els noms compostos i els patrons de noms alemanys. Per al frances: fr_core_news_lg gestiona les entitats franceses, els titols, els noms de llocs i les organitzacions.

Els models natius superen els models translingues per a l'escaneig de noms en locals d'alts recursos.

Nivell 2: Stanza per a Mes Locals

La biblioteca Stanza de Stanford cobreix els locals que no estan a spaCy. Aquests inclouen el croata, l'eslove i l'ucraïnès. Aixo afegeix abast per als grups de parlants de la UE que spaCy no atén. Stanza es gratuit i de codi obert. S'integra be amb la resta de la pila.

Nivell 3: XLM-RoBERTa per a un Abast Ampli

Per als locals on spaCy i Stanza manquen de models NER, XLM-RoBERTa omple la llacuna. S'entrena en text de Common Crawl en 100 locals. Assoleix un F1 translingue del 91,4% per a la deteccio de PII (HuggingFace 2024). Gestiona el canvi de codi be. Aquesta es una caracteristica clau. Importa quan un document conte text en diversos locals alhora.

Visiteu la nostra documentacio del sistema de tokens per veure com les trucades a l'API escalen amb el volum multilingue.

Tipus d'Entitats Especifiques del Local

Els models sols no son suficients. L'alineacio amb el RGPD tambe requereix un ambit de tipus d'entitats per als ID especifics de cada pais.

ID Nacionals de la UE per pais:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Formats de telefon: Cada pais de la UE te estructures de prefix uniques. +49, +33 i +48 cadascun necessita la seva propia logica de validacio.

Formats d'adreca: Els codis postals varien molt. El PLZ alemany utilitza 5 digits. Els codis francesos utilitzen 5 digits (rang 01-99). Els codis postals del Regne Unit son alfanumerics. Els codis espanyols utilitzen 5 digits (01000-52999).

Cas del Mon Real: Farmaceutica Suissa

Una empresa suissa processa contractes d'ocupacio. Cada contracte barreja text en alemany, frances i angles. Suissa te quatre idiomes oficials. La seva eina estava configurada nomes per a l'alemany. Perdia tota la PII de les seccions en frances.

Un contracte per a un empleat de Ginebra incloïa un numero AVS frances (13 digits), un IBAN bancari suïs i un nom en format frances. L'eina nomes en alemany no va detectar el nom en format frances. No va trobar el numero AVS en format frances. Nomes va detectar parcialment l'IBAN.

L'enfocament de tres nivells processa el document complet. Detecta el local per segment de text. Aplica el model NER correcte per a cada part. Valida cada ID nacional amb la logica correcta del pais.

Documents amb Locals Mixtos

El cas mes dificil es la barreja de locals dins d'un document. Exemples:

  • El contracte en angles d'una empresa alemanya amb registres d'empleats alemanys (noms, ID fiscals)
  • Un formulari de consentiment del RGPD en frances amb un extracte de privadesa en angles
  • Un xat on l'agent respon en angles i el client escriu en arab

XLM-RoBERTa gestiona aixo nativament. No necessita marques de local explicites. Processa text de local mixt sense segmentacio previa. Aixo estalvia temps. Tambe evita errors per divisions incorrectes.

Per a l'us productiu, combinar la detecci automatica de locals (a nivell de frases) amb la inferencia de XLM-RoBERTa ofereix una gestio robusta de documents amb locals mixtos.

Passos Practics

Auditeu l'abast de la vostra eina. Demaneu al vostre proveidor de redaccio les puntuacions F1 per als vostres locals especifics. "Admet 20 idiomes" sovint significa que l'eina redirigeix el text a traves de la traduccio automatica primer. Aixo no es un escaneig natiu.

Mapegeu els vostres registres als locals. Feu un inventari de registres que inclogui la distribucio de locals. Una empresa global amb un 70% d'angles, un 20% d'alemany i un 10% de frances s'enfronta a riscos diferents. Una amb un 95% d'angles esta en una posicio diferent.

Proveu amb mostres d'ID nacionals. Construiu un conjunt de proves amb 10 exemples dels ID nacionals de les vostres operacions: Steuer-ID, NIR, PESEL, BSN i d'altres. Verifiqueu les taxes de deteccio. Aixo es mes rapid que una prova F1 completa.

Reviseu les vostres EIPD. Comproveu si s'inclou l'ambit de locals. Una EIPD incompleta que assumeix registres nomes en angles pot necessitar una actualitzacio. Actueu ara. No espereu una auditoria per a trobar la llacuna.

Per a les definicions completes de tipus d'entitats, vegeu la referencia d'entitats i les PMF. Per als plans i les taxes de trucades a l'API, visiteu els preus.


El motor de deteccio de PII d'anonym.legal utilitza un enfocament multilingue de tres nivells. Cobreix 25 locals d'alts recursos a traves de models spaCy natius. Stanza afegeix abast de locals addicional. Els transformers translingues XLM-RoBERTa estenen l'abast a 48 locals. S'inclouen tipus d'entitats especifics de cada pais per a tots els estats membres de la UE.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.