By · Last updated 2026-03-20

Til baka á BloggGDPR & Samræmi

Enskumiðuð PII-tæki: GDPR-bil

Þýskt Steuer-ID (11 tölustafir með eftirlitssummu) er uppbyggingarlega ólíkt bandarísku SSN. Franskir NIR-númer hafa 15 tölustafi. Pólskt PESEL og sænskt Personnummer - hvert með sér sannprófunarrök.

March 20, 20268 mín lestur
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Enskumiðuð PII-tæki: GDPR-bilið

GDPR hefur enga tungumálaflokkun

GDPR nær yfir persónuupplýsingar á hvaða tungumáli sem er. Þýska, franska, pólska, sænska - öll eru jafngild. Saknað Steuer-ID skapar sömu lagalegu áhættu og saknað kennitölu. Lögin skipta ekki tungumáli.

Flest PII-uppgötvunartæki gera það.

Framsæknustu viðskipta- og oplindar tækin voru byggð fyrir enska texta. Einingagreinarnir þeirra endurspegla þetta. Þeir ná vel yfir bandarískar kennitölur, bandarískar ökuskírteinisnúmer og NANP-símanúmersform. Greinarnir fyrir erlendar þjóðarkennimiðar eru minna nákvæmir. Þeir eru síður vel viðhaldnir. Þeir missa raunverulegar kennimiðar oftar.

Fyrir fyrirtæki á milli ESB-þjóðríkja skapar þetta þekjubil. Tækið segir að uppgötvan sé fullkomin. En erlend kennimiðar eru enn í gögnunum. Þessar eru oft kennamiðarnar með mestu GDPR-útsetningu í ákveðnum löndum.

Gagnastarfsveitar sjá þetta. Endurskoðendur leita að þessu. Tæki getur virkað vel á enskum skrám. En ef það mistakast á þýskum eða frönskum skrám er það ekki samræmt. Hrein skýrsla breytir því ekki.

Þjóðarkennamiðar eru mismunandi að uppbyggingu

Bilið milli enskumiðaðra tækja og fjöltyngismálatækja snýst ekki um að bæta við fleiri regluleg tjáningarmunstur. ESB-þjóðarkennamiðar eru mjög mismunandi. Þeir þurfa landssértækar rök til að vera greindar rétt.

Þýskt Steuer-Identifikationsnummer (Steuer-ID): 11 tölustafir. Notar eftirlitssummu sem byggir á afbrigði af Luhn-formúlu. Almenn SSN-tjáning mun ekki stemma við hana. Tjáning fyrir hvers kyns 11-stafa tölu skapar of margar falskar jákvæðar í þýskum skjölum.

Franskt NIR (Numero d'inscription au repertoire): 15 tölustafir. Sniðið kóðar kyn, fæðingarár, fæðingarmánuð og fæðingardeild. Það inniheldur einnig fæðingarröð og 2-stafa stjórnarlykil. Stjórnarlykillinn verður að vera staðfestur fyrir rétta uppgötvun.

Sænskt Personnummer: 10 tölustafir með Luhn-eftirlitsstaf. Fólk fætt fyrir 1990 notar + aðskilnað í stað -. Það breytir sniðinu sem verður að greina.

Pólskt PESEL: 11 tölustafir. Kóðar fæðingardagsetningu, kyn og eftirlitsstaf sem byggist á vegnum summum. Rétt uppgötvan þarfnast bæði snið samsvörunar og eftirlitssummusannprófunar.

Þessar eru ekki afbrigði af sameiginlegu mynstri. Hvert hefur aðra lengd. Hvert notar aðra eftirlitsaðferð. Hvert kóðar gögn í öðru staðsetningarkerfi. NER-líkan þjálfað á ensku sem sér franskt NIR mun ekki þekkja það sem þjóðarkennamerki. Það mun hunsa það eða rangflokka það.

Hagnýtur samræmniáhættan

Lítum á samræmnistarfsmann hjá evrópskum BPO. Þeir vinna úr gögnum frá Þýskalandi, Frakklandi, Póllandi og Hollandi í einu. Tækið þeirra greinir frá árangursríkri PII-nafnlögun.

En niðurstaðan er ekki fullkomin. Steuer-ID í þýskum skrám eru eftir. NIR-númer í frönskum skrám eru eftir. PESEL-númer í pólskum skrám eru eftir. Greinarnir í tækinu fyrir þessi snið vantar eða eru of ónákvæmir.

Seinna fer gagnasettið til greiningar eða til rannsóknarfélaga. Gögnin innihalda enn endurgreinanlegar þjóðarkennaminðar. GDPR-vandinn birtist ekki í frálægsskrám tækisins. Hann kemur í ljós þegar beiðni um aðgang að gögnum berst. Hann getur komið í ljós við gagnastarfsveita endurskoðun. Hann getur komið í ljós eftir gagnabrot.

Rannsóknir sem bera saman blendnar fjöltyngismálaleg leiðir við enskumiðuð tæki fundu skýrar niðurstöður. Blandaðar aðferðir ná F1-stigum 0,60 til 0,83 yfir evrópsk svæði. Enskur einmálalegar tæki fá nálægt núll fyrir erlend þjóðarkennamiðarsnið.

Sjá GDPR-samræmningaryfirlit fyrir hvernig þessi bil varpa á GDPR-skyldur.

Hvað full þekja krefst

Sönn fjöltyngisleg PII-uppgötvan fyrir GDPR-samræmni þarf þrjár lög.

Tungumálanæmar spaCy-líkön veita merkingarfræðilegan skilning á tungumáli textans. Líkan þjálfað á þýskum texta veit að "Muller" er algengt þýskt eftirnafn. Líkön eru til fyrir 25 háauðlindatungumál í ESB.

Stanza NLP-líkön víkka þekjuna til tungumála sem eru ekki í spaCy. Þetta bætir við sviðsmöguleika fyrir fleiri ESB-tungumálasamfélög.

Þverlingvistilíkön (XLM-RoBERTa) meðhöndla þverlingvistilegar aðstæður. Nafn í frönskri setning u er þekkt sem mannanafn. Þetta virkar jafnvel þótt vélin hafi ekki verið þjálfuð á því tiltekna nafni.

Regluleg tjáning með landssértæka sannprófun nær yfir skipulagðar þjóðarkennamiðar. Steuer-ID, NIR, PESEL og Personnummer þurfa hvert sitt eftirlitssummurök. Þetta dregur úr fölskum jákvæðum. Tölustafastrengir sem standast ekki landssannprófunarreglur eru síaðir út.

Bilið er uppbyggingarlegt. Að bæta við orðalistum eða fleiri reglulegum tjáningum gefur aðeins minniháttar umbætur. Að byggja inn ESB-kennamiðaþekju frá upphafi er eina áreiðanlega leiðin.

Athugndu núverandi tæki þitt

Biddu lánardrottin þinn um F1-stig á þýskum, frönskum, pólskum og holllenskum skrám. "Styður mörg tungumál" þýðir oft að tækið notar þýðingu fyrst. Það er ekki innfædd skoðun. GDPR-samræmni krefst innfæddrar skoðunar.

Prófaðu með raunverulegum þjóðarkennamiðarsýnum. Búðu til stutt prófasett með 10 dæmum af hverjum kenna-miðargerð í starfsemi þinni. Steuer-ID, NIR, PESEL, Personnummer. Athugndu uppgötvunartíðni. Þetta er hraðara en fullt F1-próf og sýnir bil fljótt.

Sjá öryggi og samræmni síðu okkar fyrir hvernig anonym.legal takast á við þessar kröfur. Fyrir skilgreiningar á einingagerðum, heimsóttu eininga viðmiðunina.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.