anonym.legal

By · Last updated 2026-03-03

Terug na BlogGDPR & Nakoming

Meertalige PII-opsporing vir GDPR

Die Steuer-ID in Duits, NIR in Frans en Personnummer in Sweeds vereis elk verskillende opsporing-logika. Leer hoe om GDPR-nakoming oor alle tale te verseker.

March 3, 202610 min lees
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Meertalige PII-opsporing vir GDPR

Opgedateer vir 2026

Die Versteekte GDPR-gaping

GDPR het geen taalvoorkeur nie. Artikel 4(1) definieer "persoonlike data" sonder om die taal te noem. 'n Duitse Steuer-ID is net so beskerm as 'n VS-sosialesekerheidsnommer. 'n Franse NIR is net so gereguleer as 'n UK-nasionale versekeringsnommer.

Meeste PII-opsporingsnutsmiddels is slegs vir Engels gebou.

Navorsing van ACL 2024 het bevind dat hibriede NLP-nutsmiddels F1-tellings van 0.60-0.83 vir Europese landstreke bereik. Engels-alleen-nutsmiddels gee byna nul vir nie-Engelse nasionale ID-formate. Die gaping is skerp. 'n Nutsmiddel kan 95% van Engelse PII vang. Tog mis dit 40-60% van Duitse, Franse, Poolse of Nederlandse PII in dieselfde leer. Dit is 'n ernstige probleem. Dit laat maatskappye blootgestel.

Dit is 'n werklike GDPR-gaping. Dit raak byna elke globale firma wat Engels-sentriese redigerings-nutsmiddels gebruik. Sien ons GDPR-gids vir meer.

Waarom PII Landstreek-spesifiek Is

PII-opsporing het twee dele.

Die eerste is patroongebaseerde skandering. Dit dek gestruktureerde ID's soos belastingsnommers en telefoonnommerformate.

Die tweede is NER-gebaseerde skandering. Dit dek kontekstuele entiteite soos name en adresse.

Albei dele hang van landstreek af.

Gestruktureerde ID's Verskil Per Land

LandBelasting-IDFormaatValidering
DuitslandSteuer-ID11 syfersModulo-11
FrankrykNIR15 syfers + 2-syfer sleutelINSEE
SwedePersonnummer10 syfersLuhn
PolePESEL11 syfersModulo-10
NederlandBSN9 syfersElfproef
SpanjeDNI/NIE8 syfers + letterModulo-23
ItalieCodice Fiscale16 karaktersPasgemaakte kontrolesom

'n Engels-alleen-regex vir SSN's (NNN-NN-NNNN) sal nie een van hierdie formate pas nie. Elkeen benodig sy eie regex. Elkeen benodig ook sy eie kontrolesom-logika.

NER Benodig Inheemse Modelle

Duitse name verskil van Engelse. "Hans-Dieter Muller" is duidelik vir 'n inheemse Duitse model. 'n Engelse-opgeleide model mis sulke name dikwels.

Valse positiewe is ook 'n probleem. Die Microsoft Presidio-probleemnasporer wys dat Duitse woorde as Engelse PII geklassifiseer word. Die woord "Null" (Duits vir "nul") is een voorbeeld. Dit veroorsaak vals naam-treffers in Engels-opgeleide modelle. In produksiegebruik styg foutkoerse tot 3 valse positiewe per werklike entiteit (Alvaro et al., 2024).

Reguleringsrisiko

EU-dataowerhede is bewus van hierdie probleem. Verskeie nasionale DPA's het leiding uitgereik.

Duitse BfDI: GDPR Artikel 5(1)(f) geld vir alle rekords. Dit dek nie-Engelse data verwerk deur derdeparty-nutsmiddels.

Franse CNIL: Die 2024 CNIL Jaarverslag het bekommernisse geopper. Dit het KI-nutsmiddels aangemerk wat Franse rekords hanteer sonder Franse-landstreek PII-skandering.

EU DPA's breed: GDPR Artikel 25 (Privaatheid by Ontwerp) vereis waarborge geskik vir die werklike rekords wat verwerk word. Dit sluit nie-Engelse PII in globale ontplooiings in.

Die risiko is duidelik. 'n Firma kan 95% PII-opsporing op Engelse inhoud in 'n GDPR-oudit wys. Maar as dit ook Duitse, Franse en Poolse rekords met dieselfde nutsmiddel hanteer, sal gapings verskyn. Ouditeure merk. Boetes kan volg. Sien ons sekuriteitsbladsy vir hoe ons dit aanspreek.

Drie-Vlak-Ontwerp

Navorsing en produksiegebruik stem saam oor 'n drie-vlak-hibriede ontwerp as die beste benadering.

Vlak 1: Inheemse spaCy-modelle

spaCy bied opgeleide modelle vir 25 landstreke. Dit sluit Duits, Frans, Spaans, Portugees, Italiaans, Nederlands, Russies, Sjinees, Japannees, Koreaans en Pools in. Elke model lei op inheemse teks op. Hulle leer die sintaksis en entiteitspatrone van elke landstreek. Dit maak saak. Inheemse opleiding beteken beter herroep en minder valse positiewe.

Vir Duits: de_core_news_lg hanteer saamgestelde selfstandige naamwoorde en Duitse naampatrone. Vir Frans: fr_core_news_lg hanteer Franse entiteite, titels, plekname en organisasies.

Inheemse modelle klop kruistalige modelle vir naamskanderings op hoe-hulpbron-landstreke.

Vlak 2: Stanza vir Meer Landstreke

Stanford se Stanza-biblioteek dek landstreke nie in spaCy nie. Dit sluit Kroaties, Sloweens en Oekraiens in. Dit voeg bereik by vir EU-sprekersgroepe wat spaCy nie bedien nie. Stanza is gratis en oopbron. Dit integreer goed met die res van die stapel.

Vlak 3: XLM-RoBERTa vir Bree Bereik

Vir landstreke waar spaCy en Stanza NER-modelle ontbreek, vul XLM-RoBERTa die gaping. Dit lei op Common Crawl-teks oor 100 landstreke op. Dit bereik 91,4% kruistalige F1 vir PII-opsporing (HuggingFace 2024). Dit hanteer kodewisseling goed. Dit is 'n sleutelkenmerk. Dit maak saak wanneer een dokument teks in verskeie landstreke terselfdertyd het.

Besoek ons tokenstelsel-dokumentasie om te sien hoe API-oproeptye skaleer met meertalige volume.

Landstreek-spesifieke Entiteitstipes

Modelle alleen is nie genoeg nie. GDPR-belyning vereis ook entiteitstipe-omvang vir landspesifieke ID's.

EU Nasionale ID's per land:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Telefoonnommerformate: Elke EU-land het unieke voorvoegselstrukture. +49, +33 en +48 elk benodig hul eie valideringslogika.

Adresformate: Poskodes verskil wyd. Duits PLZ gebruik 5 syfers. Franse kodes gebruik 5 syfers (01-99-reeks). UK-poskodes is alfanumeries. Spaanse kodes gebruik 5 syfers (01000-52999).

Werklike-wereld Geval: Switserse Farmaseutiese Maatskappy

'n Switserse firma verwerk werknemerskontrakte. Elke kontrak meng Duitse, Franse en Engelse teks. Switserland het vier amptelike tale. Hul nutsmiddel was slegs vir Duits opgestel. Dit het alle Franse-afdeling-PII gemis.

'n Kontrak vir 'n Geneve-gebaseerde werknemer het 'n Franse AVS-nommer (13 syfers), 'n Switserse bank-IBAN en 'n naam in Franse formaat ingesluit. Die Duits-alleen-nutsmiddel het die Frans-formaat-naam gemis. Dit het die Franse AVS-nommer nie gevind nie. Dit het die IBAN slegs gedeeltelik opgespoor.

Die drie-vlak-benadering verwerk die hele dokument. Dit stel landstreek per tekssegment op. Dit pas die regte NER-model vir elke deel toe. Dit valideer elke nasionale ID met die korrekte landlogika.

Gemengde-landstreek Dokumente

Die moeilikste geval is intra-dokument-landstreek-vermenging. Voorbeelde:

  • 'n Duitse firma se Engelse kontrak met Duitse werknemersrekords (name, belasting-ID's)
  • 'n Franse GDPR-toestemmingsvorm met 'n Engelse privaatheidsuittreksel
  • 'n Gesels waar die agent in Engels antwoord en die klient in Arabies skryf

XLM-RoBERTa hanteer dit inheems. Dit benodig geen eksplisiete landstreekmerkers nie. Dit verwerk gemengde-landstreekteks sonder voorafgaande verdeling. Dit bespaar tyd. Dit vermy ook foute van foutiewe verdelings.

Vir produksiegebruik gee die kombinasie van outomatiese landstreekopsporing (op sinsvlak) met XLM-RoBERTa-inferensie robuuste hantering van gemengde-landstreekdokumente.

Praktiese Stappe

Oudit jou nutsmiddel se bereik. Vra jou redigerings-verskaffer vir F1-tellings vir jou spesifieke landstreke. "Ondersteun 20 tale" beteken dikwels dat die nutsmiddel teks eers deur masjienervertaling stuur. Dit is nie inheemse skandering nie.

Karteer jou rekords na landstreke. Doen 'n rekords-inventaris wat landstreekverdeling insluit. 'n Globale firma met 70% Engels, 20% Duits en 10% Frans staan voor verskillende risiko's. Een met 95% Engels is in 'n ander posisie.

Toets met nasionale ID-monsters. Bou 'n toetsstel met 10 voorbeelde van die nasionale ID's in jou bedrywighede -- Steuer-ID, NIR, PESEL, BSN en andere. Verifieer opsporingskoerse. Dit is vinniger as 'n volledige F1-toets.

Hersien jou DPIA's. Kyk of landstreek-omvang ingesluit is. 'n Onvolledige DPIA wat Engels-alleen-rekords aanvaar, mag dalk 'n opdatering benodig. Tree nou op. Wag nie vir 'n oudit om die gaping te vind nie.

Vir volledige entiteitstipe-definisies, sien die entiteitsreferensie en die FAQ. Vir planne en API-oproepkoerse, besoek pryse.


anonym.legal se PII-opsporingsenjin gebruik 'n drie-vlak-meertalige benadering. Dit dek 25 hoe-hulpbron-landstreke via inheemse spaCy-modelle. Stanza voeg ekstra landstreekbereik by. XLM-RoBERTa-kruistalige transformers brei omvang uit na 48 landstreke. Landspesifieke entiteitstipes vir alle EU-lidstate is ingesluit.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.