anonym.legal

By · Last updated 2026-03-03

Povratak na blogGDPR i usklađenost

Višejezična detekcija PII za GDPR usklađenost

Nemački Steuer-ID, francuski NIR i švedski Personnummer zahtevaju različitu logiku detekcije. Saznajte kako pokriti sve EU lokale.

March 3, 202610 min čitanja
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Višejezična detekcija PII za GDPR

Ažurirano za 2026.

Skriveni GDPR jaz

GDPR nema jezičku preferencu. Član 4(1) definiše "lične podatke" bez imenovanja jezika u kom se pojavljuju. Nemački Steuer-ID je jednako zaštićen kao američki broj socijalnog osiguranja. Francuski NIR je jednako regulisan kao britanski National Insurance broj.

Većina alata za detekciju PII izgrađena je samo za engleski.

Istraživanje ACL 2024 utvrdilo je da hibridni NLP alati postižu F1 skorove od 0,60–0,83 za evropske lokale. Alati samo za engleski postižu blizu nule za neengleske formate nacionalnih ID-jeva. Jaz je upečatljiv. Alat može uhvatiti 95% engleskog PII. Ipak propušta 40–60% nemačkog, francuskog, poljskog ili holandskog PII u istom fajlu. To je ozbiljan problem. Ostavlja kompanije izloženim.

Ovo je stvarni GDPR jaz. Utiče na skoro svaku globalnu firmu koja koristi alate za redakciju usmerene na engleski. Pogledajte naš GDPR vodič za više.

Zašto je PII specifičan za lokal

Detekcija PII ima dva dela.

Prvi je skeniranje zasnovano na obrascima. Pokriva strukturisane ID-jeve kao što su poreski brojevi i formati telefona.

Drugi je skeniranje zasnovano na NER-u. Pokriva kontekstualne entitete kao što su imena i adrese.

Oba dela zavise od lokala.

Strukturisani ID-jevi se razlikuju po zemlji

ZemljaPoreski IDFormatValidacija
NemačkaSteuer-ID11 cifaraModulo-11
FrancuskaNIR15 cifara + 2-cifreni ključINSEE
ŠvedskaPersonnummer10 cifaraLuhn
PoljskaPESEL11 cifaraModulo-10
HolandijaBSN9 cifaraElfproef
ŠpanijaDNI/NIE8 cifara + slovoModulo-23
ItalijaCodice Fiscale16 znakovaPrilagođena kontrolna suma

Engleski regex za SSN (NNN-NN-NNNN) neće se podudariti ni sa jednim od ovih formata. Svaki zahteva sopstveni regex. Svaki zahteva i sopstvenu logiku kontrolnih suma.

NER zahteva izvorne modele

Nemačka imena se razlikuju od engleskih. "Hans-Dieter Müller" je jasan izvornom nemačkom modelu. Model treniran na engleskom često propušta ovakva imena.

Lažno pozitivni su takođe problem. Microsoft Presidio pratilac problema pokazuje nemačke reči koje se pogrešno klasifikuju kao engleski PII. Reč "Null" (nemački za "nula") je jedan primer. Pokreće lažne pogotke za ime u modelima treniranim na engleskom. U produkcijskoj upotrebi, stope grešaka rastu do 3 lažno pozitivna po stvarnom entitetu (Alvaro et al., 2024).

Regulatorni rizik

EU tela za zaštitu podataka svesna su ovog problema. Nekoliko nacionalnih DPA-a izdalo je smernice.

Nemački BfDI: GDPR član 5(1)(f) primenjuje se na sve zapise. Pokriva ne-engleske podatke obrađene alatima trećih strana.

Francuski CNIL: Godišnji izveštaj CNIL-a za 2024. izrazio je zabrinutost. Označio je AI alate koji obrađuju francuske zapise bez skeniranja PII za francuski lokal.

EU DPA generalno: GDPR član 25 (Privatnost po dizajnu) zahteva zaštitne mere prilagođene stvarnim zapisima koji se obrađuju. Ovo uključuje ne-engleski PII u globalnim primenama.

Rizik je jasan. Firma može pokazati 95% detekciju PII na engleskom sadržaju u GDPR reviziji. Ali ako isti alat koristi i za nemačke, francuske i poljske zapise, praznine će se pojaviti. Revizori to primećuju. Globe mogu uslediti. Pogledajte našu stranicu o zaštitnim merama za to kako mi rešavamo ovo.

Dizajn u tri nivoa

Istraživanje i produkcijska upotreba se slažu da je hibridni dizajn u tri nivoa best pristup.

Nivo 1: Izvorni spaCy modeli

spaCy pruža trenirane modele za 25 lokala. To uključuje nemački, francuski, španski, portugalski, italijanski, holandski, ruski, kineski, japanski, korejski i poljski. Svaki model trenira na izvornom tekstu. Uče sintaksu i obrasce entiteta svakog lokala. Ovo je bitno. Izvorni trening znači bolji odziv i manje lažno pozitivnih.

Za nemački: de_core_news_lg obrađuje složenice i nemačke obrasce imenovanja. Za francuski: fr_core_news_lg obrađuje francuske entitete, titule, nazive mesta i organizacije.

Izvorni modeli nadmašuju višejezične modele za skeniranje imena na lokalima bogatim resursima.

Nivo 2: Stanza za više lokala

Stanford-ova Stanza biblioteka pokriva lokale koji nisu u spaCy-u. To uključuje hrvatski, slovenački i ukrajiski. Ovo dodaje doseg za EU grupe govornika koje spaCy ne pokriva. Stanza je besplatna i otvorenog koda. Dobro se integriše sa ostatkom steka.

Nivo 3: XLM-RoBERTa za široki doseg

Za lokale gde spaCy i Stanza nemaju NER modele, XLM-RoBERTa popunjava prazninu. Trenira na Common Crawl tekstovima u 100 lokala. Postiže 91,4% višejezičnog F1 za detekciju PII (HuggingFace 2024). Dobro obrađuje mešanje kodova. To je ključna funkcionalnost. Bitna je kada jedan dokument sadrži tekst na nekoliko lokala odjednom.

Posetite naše dokumentaciju token sistema da vidite kako API pozivi skaliraju sa višejezičnim obimom.

Tipovi entiteta specifični za lokal

Sami modeli nisu dovoljni. GDPR usklađenost takođe zahteva opseg tipova entiteta za ID-jeve specifične za zemlju.

EU nacionalni ID-jevi po zemlji:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Formati telefona: Svaka EU zemlja ima jedinstvene strukture prefiksa. +49, +33 i +48 zahtevaju sopstvenu logiku validacije.

Formati adresa: Poštanski brojevi se znatno razlikuju. Nemački PLZ koristi 5 cifara. Francuski kodovi koriste 5 cifara (opseg 01–99). UK poštanski brojevi su alfanumerički. Španski koriste 5 cifara (01000–52999).

Stvarni slučaj: Švajcarska farmaceutska firma

Švajcarska firma obrađuje ugovore o zapošljavanju. Svaki ugovor meša nemački, francuski i engleski tekst. Švajcarska ima četiri zvanična jezika. Njihov alat bio je podešen samo za nemački. Propuštao je sav PII u francuskim delovima.

Ugovor za zaposlenu u Ženevi uključivao je francuski AVS broj (13 cifara), švajcarski bankovni IBAN i ime u francuskom formatu. Alat samo za nemački propustio je ime u francuskom formatu. Nije pronašao francuski AVS broj. Samo delimično je otkrio IBAN.

Pristup u tri nivoa obrađuje ceo dokument. Detektuje lokal po segmentu teksta. Primenjuje odgovarajući NER model za svaki deo. Validira svaki nacionalni ID sa ispravnom logikom za tu zemlju.

Dokumenti sa mešovitim lokalima

Najteži slučaj je mešanje lokala unutar dokumenta. Primeri:

  • Engleski ugovor nemačke firme sa nemačkim zapisima o zaposlenima (imena, poreski ID-jevi)
  • Francuski GDPR formular za saglasnost sa engleskim odlomkom o privatnosti
  • Razgovor u kom agent odgovara na engleskom a korisnik piše na arapskom

XLM-RoBERTa ovo obrađuje nativno. Ne treba mu eksplicitne oznake lokala. Obrađuje mešoviti tekst bez prethodnog segmentiranja. Ovo štedi vreme. Takođe izbegava greške od pogrešnih podela.

Za produkcijsku upotrebu, kombinovanje automatskog prepoznavanja lokala (na nivou rečenice) sa XLM-RoBERTa zaključivanjem daje robusnu obradu dokumenata sa mešovitim lokalima.

Praktični koraci

Proverite doseg vašeg alata. Pitajte vašeg prodavca redakcije za F1 skorove za vaše specifične lokale. "Podržava 20 jezika" često znači da alat najpre prevodi tekst mašinski. To nije izvorni sken.

Mapirajte vaše zapise na lokale. Napravite inventar zapisa koji uključuje distribuciju lokala. Globalna firma sa 70% engleskog, 20% nemačkog i 10% francuskog suočava se sa različitim rizicima. Ona sa 95% engleskog je u drugačijoj poziciji.

Testirajte sa uzorcima nacionalnih ID-jeva. Izgradite test skup sa 10 primera nacionalnih ID-jeva u vašim operacijama — Steuer-ID, NIR, PESEL, BSN i drugi. Proverite stope detekcije. Ovo je brže od punog F1 testa.

Pregledajte vaše DPIA. Proverite da li je obuhvat lokala uključen. Nepotpuna DPIA koja pretpostavlja zapise samo na engleskom može zahtevati ažuriranje. Delujte sada. Ne čekajte reviziju da pronađe jaz.

Za potpune definicije tipova entiteta, pogledajte referencu entiteta i FAQ. Za planove i stope API poziva, posetite cene.


Mehanizam za detekciju PII anonym.legal koristi tronivovski višejezični pristup. Pokriva 25 lokala bogatih resursima putem izvornih spaCy modela. Stanza dodaje dodatni doseg za lokale. XLM-RoBERTa višejezični transformeri proširuju doseg na 48 lokala. Uključeni su tipovi entiteta specifični za svaku EU državu.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.