anonym.legal

By · Last updated 2026-03-20

Povratak na blogGDPR i usklađenost

Alati za PII samo na engleskom: GDPR praznina

Nemački Steuer-ID (11 cifara s kontrolnom sumom) strukturno se razlikuje od američkog SSN. Francuski NIR broji 15 cifara. Poljski PESEL i švedski Personnummer imaju sopstvene formate. Engleski alati ih propuštaju.

March 20, 20268 min čitanja
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Alati za PII samo na engleskom: GDPR praznina

GDPR ne pravi razliku po jeziku

GDPR pokriva lične podatke na svakom jeziku. Nemački, francuski, poljski, švedski — svi su pokriveni jednako. Propušten Steuer-ID stvara isti pravni rizik kao propušten američki SSN. Zakon ne mari za jezik.

Većina alata za otkrivanje PII podataka ipak mari.

Vodeći komercijalni i open-source alati razvijeni su za engleski tekst. Njihovi detektori entiteta to odražavaju. Dobro pokrivaju američke socijalne osiguraničke brojeve, američke vozačke dozvole i NANP telefonske formate. Detektori za neengleske nacionalne identifikatore su manje precizni. Manje se održavaju. Češće propuštaju stvarne identifikatore.

Za firme u državama EU to stvara prazninu u pokrivenosti. Alat kaže da je otkrivanje završeno. Ali neengleski identifikatori ostaju u podacima. Često su to upravo identifikatori s najvećom GDPR izloženošću u pojedinim zemljama.

Organi za zaštitu podataka to vide. Revizori to traže. Alat može dobro da funkcioniše na engleskim evidencijama. Ali ako ne uspe na nemačkim ili francuskim evidencijama, nije usklađen. Čist izveštaj to ne menja.

Nacionalni identifikatori se razlikuju po strukturi

Jaz između alata usmerenih na engleski i višejezičnih alata nije pitanje dodavanja više regex obrazaca. EU nacionalni identifikatori međusobno se veoma razlikuju. Potrebna im je logika specifična za svaku zemlju da bi se ispravno detektovali.

Nemački Steuer-Identifikationsnummer (Steuer-ID): 11 cifara. Koristi kontrolnu sumu zasnovanu na varijanti Luhn formule. Generički SSN regex ga neće prepoznati. Regex za bilo koji 11-cifreni broj stvara previše lažno pozitivnih rezultata u nemačkim dokumentima.

Francuski NIR (Numéro d'inscription au répertoire): 15 cifara. Format kodira pol, godinu rođenja, mesec rođenja i departman. Uključuje i redni broj i 2-cifreni kontrolni ključ. Kontrolni ključ mora biti validiran za ispravno otkrivanje.

Švedski Personnummer: 10 cifara s Luhn kontrolnom cifrom. Osobe rođene pre 1990. koriste + separator umesto -. To menja format koji mora biti detektovan.

Poljski PESEL: 11 cifara. Kodira datum rođenja, pol i kontrolnu cifru zasnovanu na ponderisanim sumama. Za ispravno otkrivanje potrebno je i podudaranje formata i validacija kontrolne sume.

Ovo nisu varijante zajedničkog obrasca. Svaki ima različitu dužinu. Svaki koristi različitu metodu provere. Svaki kodira podatke u drugačijoj šemi pozicija. NER model obučen na engleskom koji vidi francuski NIR neće ga prepoznati kao nacionalni identifikator. Ignorovaće ga ili pogrešno klasifikovati.

Praktični rizik usklađenosti

Zamislite oficira za usklađenost u evropskom BPO preduzeću. Istovremeno obrađuje podatke iz Nemačke, Francuske, Poljske i Holandije. Njihov alat izveštava o uspešnoj anonimizaciji PII podataka.

Ali rezultat nije kompletan. Steuer-ID podaci u nemačkim evidencijama ostaju. NIR brojevi u francuskim evidencijama ostaju. PESEL brojevi u poljskim evidencijama ostaju. Detektori alata za ove formate su odsutni ili previše neprecizni.

Kasnije, skup podataka odlazi u analitiku ili istraživačkom partneru. Podaci i dalje sadrže re-identifikabilne nacionalne identifikatore. GDPR problem se ne pojavljuje u izlaznim evidencijama alata. Pojavljuje se kada stigne zahtev za pristup podacima od strane subjekta. Može se pojaviti tokom revizije organa za zaštitu podataka. Može se pojaviti nakon povrede podataka.

Istraživanja koja porede hibridne višejezične pristupe s alatima usmerenim na engleski daju jasne rezultate. Hibridne metode postižu F1 ocene od 0,60 do 0,83 u evropskim lokalima. Alati samo za engleski postižu blizu nule za neengleske formate nacionalnih identifikatora.

Pogledajte naš pregled usklađenosti s GDPR propisima za to kako ove praznine odgovaraju GDPR obavezama.

Šta potpuna pokrivenost zahteva

Istinsko višejezično otkrivanje PII podataka za EU GDPR usklađenost zahteva tri sloja.

Jezički izvorni spaCy modeli pružaju semantičko razumevanje na jeziku teksta. Model obučen na nemačkom tekstu zna da je Müller uobičajeno nemačko prezime. Modeli postoje za 25 visokorazvijenih EU jezika.

Stanza NLP modeli proširuju pokrivenost na jezike kojih nema u spaCy paketu. Ovo povećava doseg za više EU jezičkih zajednica.

Višejezični transformer modeli (XLM-RoBERTa) rešavaju međujezičke slučajeve. Ime u francuskoj rečenici prepoznaje se kao ime osobe. Ovo funkcioniše čak i ako motor nije obučen na tom konkretnom imenu.

Regex s validacijom specifičnom za svaku zemlju pokriva strukturirane nacionalne identifikatore. Steuer-ID, NIR, PESEL i Personnummer svaki zahtevaju sopstvenu logiku kontrolne sume. Ovo smanjuje lažno pozitivne rezultate. Nizovi cifara koji ne prolaze pravila validacije specifična za svaku zemlju se filtriraju.

Jaz je strukturan. Dodavanje listi reči ili više regex obrazaca daje samo manje poboljšanje. Ugradnja pokrivenosti EU identifikatora od samog početka jedini je pouzdan pristup.

Proverite svoj trenutni alat

Pitajte svog vendora za F1 ocene na nemačkim, francuskim, poljskim i holandskim evidencijama. Izjava da alat podržava više jezika često znači da alat prvo prevodi. To nije izvorno skeniranje. GDPR usklađenost zahteva izvorno skeniranje.

Testirajte s realnim uzorcima nacionalnih identifikatora. Napravite kratki skup testova s 10 primera svakog tipa identifikatora u vašim operacijama: Steuer-ID, NIR, PESEL, Personnummer. Proverite stope otkrivanja. Ovo je brže od punog F1 testa i brzo otkriva praznine.

Pogledajte našu stranicu o bezbednosti i usklađenosti za to kako anonym.legal adresira ove zahteve. Za definicije tipova entiteta, posetite referencu za entitete.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.