By · Last updated 2026-03-20

Vissza a BlograGDPR & Megfelelés

Csak angol nyelvű PII-eszközök: GDPR-rés

A német Steuer-ID (11 számjegy ellenőrző összeggel) szerkezetileg eltér az amerikai SSN-től. A francia NIR-számok 15 számjegyből állnak. A lengyel PESEL és a svéd Personnummer szintén különbözik.

March 20, 20268 perc olvasás
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Csak angol nyelvű PII-eszközök: A GDPR-rés

A GDPR nem részesít előnyben egyetlen nyelvet sem

A GDPR bármilyen nyelven szereplő személyes adatokra vonatkozik. Német, francia, lengyel, svéd — mindegyiket egyformán lefedi. Egy kihagyott Steuer-ID ugyanolyan jogi kockázatot jelent, mint egy kihagyott társadalombiztosítási szám. A jog nem foglalkozik a nyelvvel.

A legtöbb PII-felismerő eszköz igen.

A vezető kereskedelmi és nyílt forráskódú eszközöket angol szövegekre fejlesztették. Entitásdetektorjuk ezt tükrözi. Jól fedik le az amerikai társadalombiztosítási számokat, az amerikai vezetői engedélyeket és a NANP telefonformátumokat. A nem angol anyanyelvű nemzeti azonosítókhoz tartozó detektorok kevésbé pontosak. Kevésbé karbantartottak. Gyakrabban hagynak ki valódi azonosítókat.

Az uniós tagállamokban működő cégek számára ez lefedettségi rést jelent. Az eszköz azt jelenti, hogy az észlelés teljes. De a nem angol azonosítók az adatokban maradnak. Ezek gyakran azok az azonosítók, amelyek a legnagyobb GDPR-kitettséget jelentik egyes országokban.

Az adatvédelmi hatóságok látják ezt. Az auditorok keresik ezt. Egy eszköz jól működhet az angol rekordokon. De ha megbukik a német vagy francia rekordokon, nem felel meg a követelményeknek. Egy tiszta jelentés ezt nem változtatja meg.

A nemzeti azonosítók eltérő szerkezetűek

Az angolközpontú és a többnyelvű eszközök közötti rés nem csupán arról szól, hogy több regex-mintát adunk hozzá. Az uniós nemzeti azonosítók nagyon különböznek egymástól. A helyes észleléshez országspecifikus logika szükséges.

Német Steuer-Identifikationsnummer (Steuer-ID): 11 számjegy. Luhn-formula-változaton alapuló ellenőrző összeget használ. Egy általános SSN-regex nem ismeri fel. Az összes 11 számjegyű számra vonatkozó regex túl sok hamis pozitívot generál a német dokumentumokban.

Francia NIR (Numéro d'inscription au répertoire): 15 számjegy. A formátum a nemet, a születési évet, a születési hónapot és a születési departement-t kódolja. Tartalmaz születési sorrendszámot és egy 2 számjegyű ellenőrző kulcsot is. A helyes észleléshez az ellenőrző kulcsot érvényesíteni kell.

Svéd Personnummer: 10 számjegy Luhn-ellenőrző számjeggyel. Az 1990 előtt születettek + elválasztójelet használnak a - helyett. Ez megváltoztatja az észlelendő formátumot.

Lengyel PESEL: 11 számjegy. A születési dátumot, a nemet és egy súlyozott összegen alapuló ellenőrző számjegyet kódol. A helyes észleléshez mind a formátumegyeztetés, mind az ellenőrzőösszeg-érvényesítés szükséges.

Ezek nem egy közös minta változatai. Mindegyiknek eltérő hossza van. Mindegyik más ellenőrzési módszert használ. Mindegyik más pozíciósémában kódolja az adatokat. Egy angolra betanított NER-modell, amely egy francia NIR-t lát, nem ismeri fel azt nemzeti azonosítóként. Figyelmen kívül hagyja vagy tévesen osztályozza.

A gyakorlati megfelelőségi kockázat

Képzeljük el egy európai BPO megfelelőségi tisztviselőjét. Egyszerre dolgoz fel adatokat Németországból, Franciaországból, Lengyelországból és Hollandiából. Az eszközük sikeres PII-anonimizálást jelent.

De az eredmény nem teljes. A német rekordokban lévő Steuer-ID-k megmaradnak. A francia rekordokban lévő NIR-számok megmaradnak. A lengyel rekordokban lévő PESEL-számok megmaradnak. Az eszköz detektorai ezekre a formátumokra hiányoznak vagy túl pontatlanok.

Később az adatkészlet analitikába kerül vagy kutatópartnerhez megy. Az adatok még mindig tartalmaznak újra azonosítható nemzeti azonosítókat. A GDPR-probléma nem jelenik meg az eszköz kimeneti naplóiban. Akkor kerül felszínre, amikor érintetti hozzáférési kérelem érkezik. Megjelenhet egy adatvédelmi hatósági audit során. Megjelenhet egy adatszivárgás után.

A hibrid többnyelvű megközelítéseket az angolközpontú eszközökkel összehasonlító kutatás egyértelmű eredményeket hozott. A hibrid módszerek 0,60–0,83-as F1-pontszámot érnek el az európai területi beállítások esetén. A csak angol nyelvű eszközök közel nulla pontszámot érnek el a nem angol anyanyelvű nemzeti azonosítóformátumoknál.

Tekintse meg a GDPR-megfelelőségi áttekintőnket, amelyből megtudhatja, hogyan kapcsolódnak ezek a rések a GDPR-kötelezettségekhez.

A teljes lefedettséghez szükséges

Az EU GDPR-nak való megfeleléshez szükséges valódi többnyelvű PII-észlelés három réteget igényel.

Anyanyelvű spaCy-modellek szemantikai megértést biztosítanak a szöveg nyelvén. Egy német szövegen betanított modell tudja, hogy a Müller egy gyakori német családnév. Modellek léteznek az EU 25 magas erőforrású nyelvéhez.

Stanza NLP-modellek kiterjesztik a lefedettséget a spaCy-ban nem szereplő nyelvekre. Ez elérést biztosít az EU több nyelvi közösségéhez.

Keresztnyelvű transzformer-modellek (XLM-RoBERTa) a keresztnyelvű eseteket kezelik. Egy francia mondatban szereplő nevet személynévként ismer fel. Ez akkor is működik, ha a motor nem az adott névre lett betanítva.

Regex országspecifikus érvényesítéssel lefedi a strukturált nemzeti azonosítókat. A Steuer-ID, a NIR, a PESEL és a Personnummer mindegyike saját ellenőrzőösszeg-logikát igényel. Ez csökkenti a hamis pozitívokat. Az ország érvényesítési szabályain meg nem felelő számsorok kiszűrésre kerülnek.

A rés strukturális. Szólista vagy több regex-minta hozzáadása csak kisebb javulást hoz. Az EU-azonosítók lefedettségének kezdettől fogva történő beépítése az egyetlen megbízható megközelítés.

Ellenőrizze a jelenlegi eszközét

Kérjen F1-pontszámokat a szállítójától a német, francia, lengyel és holland rekordokra vonatkozóan. A több nyelvet támogat jellemző gyakran azt jelenti, hogy az eszköz először fordítást alkalmaz. Ez nem natív szkennelés. A GDPR-megfelelőség natív szkennelést igényel.

Teszteljen valódi nemzeti azonosítómintákkal. Állítson össze egy rövid tesztkészletet 10 példával minden azonosítótípusból a működéséből. Steuer-ID, NIR, PESEL, Personnummer. Ellenőrizze az észlelési arányokat. Ez gyorsabb, mint egy teljes F1-teszt, és gyorsan megmutatja a réseket.

Tekintse meg a biztonsági és megfelelőségi oldalunkat, amelyből megtudhatja, hogyan kezeli az anonym.legal ezeket a követelményeket. Az entitástípus-definíciókért keresse fel az entitásreferenciát.

Források

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.