anonym.legal

By · Last updated 2026-03-20

Nazaj na blogGDPR in skladnost

Orodja za PII samo v anglescini: vrzel GDPR

Nemska Steuer-ID (11 stevk s kontrolno vsoto) se strukturno razlikuje od americke SSN. Francoski stevilki NIR ima 15 stevk. Poljska PESEL in svédska Personnummer.

March 20, 20268 min branja
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Orodja za PII samo v anglescini: vrzel GDPR

GDPR nima jezikovnih preferenc

GDPR zajema osebne podatke v katerem koli jeziku. Nemscina, francoscina, polscina, svedscina - vse so enako pokrite. Prezrta Steuer-ID ustvari enako pravno tveganje kot prezrta ameriski stevilka socialne varnosti. Zakon ne gleda na jezik.

Vecina orodij za zaznavanje PII pa gleda.

Vodilna komercialna in odprtokodna orodja so bila zgrajena za anglesko besedilo. Njihovi zaznovalci entitet to odrazajo. Dobro pokrivajo americke stevilke socialne varnosti, americka vozniskim dovoljenja in telefonske formate NANP. Zaznovalci za neangleske nacionalne identifikatorje so manj natancni. Manj dobro se vzdrzujejo. Pogosteje prezrejo prave identifikatorje.

Za podjetja v drzavah clanicah EU to ustvarja vrzel v pokritosti. Orodje poroca, da je zaznavanje popolno. Toda neangleski identifikatorji ostanejo v podatkih. To so pogosto identifikatorji z najvecjo izpostavljenostjo GDPR v dolocenih drzavah.

Podatkovni organi to vidijo. Revizorji to iscejo. Orodje je morda dobro za angleske zapise. Toda ce ne uspe pri nemskih ali francoskih zapisih, ni skladno. Cist porocilo tega ne spremeni.

Nacionalni identifikatorji se razlikujejo po strukturi

Vrzel med orodji, osredotoceni na anglescino, in vecjezikovnimi orodji ni v dodajanju vec vzorcev regex. Evropski nacionalni identifikatorji se med seboj zelo razlikujejo. Potrebujejo logiko, specificno za posamezno drzavo, da se jih pravilno zazna.

Nemska Steuer-Identifikationsnummer (Steuer-ID): 11 stevk. Uporablja kontrolno vsoto, ki temelji na razlicici Luhnove formule. Genericen regex za SSN je ne bo ujel. Regex za katero koli 11-stevilcno stevilo ustvari prevec laznih pozitivov v nemskih dokumentih.

Francoski NIR (Numero d'inscription au repertoire): 15 stevk. Format kodira spol, leto rojstva, mesec rojstva in oddelek rojstva. Vsebuje tudi zaporedno stevilo in 2-stevilcni kontrolni kljuc. Kontrolni kljuc mora biti preverjen za pravilno zaznavanje.

Svédska Personnummer: 10 stevk z Luhnovo kontrolno stevko. Osebe, rojene pred letom 1990, namesto - uporabljajo locilo +. To spremeni format, ki ga je treba zaznati.

Poljska PESEL: 11 stevk. Kodira datum rojstva, spol in kontrolno stevko na podlagi uteznih vsot. Pravilno zaznavanje zahteva tako ujemanje formata kot preverjanje kontrolne vsote.

To niso razlicice skupnega vzorca. Vsaka ima drugacno dolzino. Vsaka uporablja drugacno metodo preverjanja. Vsaka kodira podatke v drugacni shemi polozaja. Anglescinski ucen model NER, ki vidi francoski NIR, ga ne bo prepoznal kot nacionalni identifikator. Prezrl ga bo ali ga napacno razvrstil.

Prakticno tveganje za skladnost

Predstavljajte si referenta za skladnost v evropskem BPO. Hkrati obdeluje podatke iz Nemcije, Francije, Poljske in Nizozemske. Njihovo orodje poroca o uspesni anonimizaciji PII.

Toda rezultat ni popoln. Steuer-ID v nemskih zapisih ostanejo. Stevilke NIR v francoskih zapisih ostanejo. Stevilke PESEL v poljskih zapisih ostanejo. Zaznovalci orodja za te formate so odsotni ali premalo natancni.

Pozneje dataset gre v analitiko ali k raziskovalnemu partnerju. Podatki se vedno vsebujejo nacionalne identifikatorje, ki omogocajo re-identifikacijo. Tezava z GDPR se ne pojavi v izhodnih dnevnikih orodja. Pojavi se, ko prispe zahteva za dostop do osebnih podatkov. Morda se pojavi med revizijo podatkovnega organa. Morda se pojavi po krsitvi podatkov.

Raziskave, ki primerjajo hibridne vecjezikovne pristope z orodji, osredotoCenimi na anglescino, so pokazale jasne rezultate. Hibridne metode dosegajo ocene F1 od 0,60 do 0,83 v evropskih jezikovnih obmocjih. Orodja, ki delujejo samo v anglescini, dosegajo blizu nicle za neangleske formate nacionalnih identifikatorjev.

Oglejte si nas pregled skladnosti z GDPR za to, kako se te vrzeli preslikajo v obveznosti GDPR.

Kaj zahteva popolna pokritost

Pravo vecjezikovno zaznavanje PII za skladnost z EU GDPR zahteva tri plasti.

Jezikovni modeli spaCy zagotavljajo semanticno razumevanje v jeziku besedila. Model, ucen na nemskem besedilu, ve, da je "Muller" pogosto nemsko priimek. Modeli obstajajo za 25 EU jezikov z visokimi viri.

Modeli NLP Stanza razsirijo pokritost na jezike, ki jih spaCy ne pokriva. To doda doseg za vec jezikovnih skupnosti EU.

Medjezikovni transformatorski modeli (XLM-RoBERTa) obravnavajo medjezikovne primere. Ime v francouzi stavku je prepoznano kot ime osebe. To deluje, ceprav pogon ni bil ucen na tistem specificnem imenu.

Regex z validacijo, specificno za posamezno drzavo, pokriva strukturirane nacionalne identifikatorje. Steuer-ID, NIR, PESEL in Personnummer vsak potrebuje svojo logiko kontrolne vsote. To zmanjsa lazne pozitive. Steviljske nize, ki ne uspejo pri pravilih validacije drzave, se filtrirajo.

Vrzel je strukturna. Dodajanje besednih seznamov ali vec vzorcev regex prinese le manjse izboljsave. Vgraditev pokritosti identifikatorjev EU od samega zacetka je edini zanesljiv pristop.

Preverite svoje trenutno orodje

Prosita svojega dobavitelja za ocene F1 na nemskih, francoskih, poljskih in nezemskih zapisih. "Podpira vec jezikov" pogosto pomeni, da orodje najprej prevaja. To ni izvorno skeniranje. Skladnost z GDPR zahteva izvorno skeniranje.

Testirajte z resnimi vzorci nacionalnih identifikatorjev. Sestavite kratek testni nabor z 10 primeri vsakega tipa identifikatorja v vasih operacijah. Steuer-ID, NIR, PESEL, Personnummer. Preverite stopnje zaznavanja. To je hitrejse od polnega testa F1 in hitro pokaze vrzeli.

Oglejte si naso stran o varnosti in skladnosti za to, kako anonym.legal obravnava te zahteve. Za definicije tipov entitet obisite referenco entitet.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.