By · Last updated 2026-03-03

Til baka á BloggGDPR & Samræmi

Fjöltyngd PII-greining fyrir GDPR

Þýsk Steuer-ID, frönsk NIR og sænsk Personnummer krefjast allir mismunandi greiningarskilgreiningar.

March 3, 202610 mín lestur
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Fjöltyngd PII-greining fyrir GDPR

Uppfært fyrir 2026

GDPR-bilið sem er falið

GDPR hefur enga tungumálsforsenda. 4. grein (1) skilgreinir "persónuleg gögn" án þess að nefna hvaða tungumál þau birtast á. Þýsk Steuer-ID er jafn vernduð og bandarísk kennitala (SSN). Frönsk NIR er jafn regluvæð og bresk National Insurance-númer.

Flest PII-greiningarverkfæri voru smíðuð eingöngu fyrir ensku.

Rannsóknir frá ACL 2024 sýndu að blönduð NLP-verkfæri ná F1-skori upp á 0,60-0,83 fyrir evrópska staðhætti. Einslegling-enska verkfæri skora nærri núlli fyrir ekki-enska þjóðleg auðkennissnið. Munurinn er skýr. Verkfæri gæti greinið 95% ensku PII. En það missir af 40-60% þýskra, franskra, pólskra eða hollenskra PII í sömu skrá. Þetta er alvarlegt vandamál. Það skilur fyrirtæki útsettar.

Þetta er raunverulegt GDPR-bil. Það snertir nær öll alþjóðleg fyrirtæki sem nota enskumiðuð þurkkverkfæri. Sjá GDPR-leiðbeiningar okkar fyrir meira.

Hvers vegna PII er staðbundið

PII-greining hefur tvo hluta.

Fyrsti er myndmatskönnun. Þetta nær yfir skipulegar kennitölur eins og skattanúmer og símanúmerasnið.

Annar er NER-könnun. Þetta nær yfir samhengisvíddar einingar eins og nöfn og heimilisföng.

Báðir hlutar eru háðir staðhætti.

Skipuleg kennitala er mismunandi eftir löndum

LandSkattanúmerSniðVilluleit
ÞýskalandSteuer-ID11 tölurModúló-11
FrakklandNIR15 tölur + 2-stafa lykillINSEE
SvíþjóðPersonnummer10 tölurLuhn
PóllandPESEL11 tölurModúló-10
HollandBSN9 tölurElfproef
SpánnDNI/NIE8 tölur + bókstafurModúló-23
ÍtalíaCodice Fiscale16 stafirSértæk villuprófun

Enskt regex fyrir SSN (NNN-NN-NNNN) passar ekkert af þessum snið. Hvert þarf sitt eigið regex. Hvert þarf líka eigið villuleitarlag.

NER þarf innfædd líkön

Þýsk nöfn eru ólík enskum. "Hans-Dieter Müller" er ljóst fyrir innfætt þýskt líkan. Enskt þjálfað líkan missir oft af slíkum nöfnum.

Falskar jákvæðar eru líka vandamál. Microsoft Presidio málaumræðuspjallborðið sýnir þýsk orð sem eru rangflokkunð sem ensk PII. Orðið "Null" (þýskt fyrir "núll") er eitt dæmi. Það veldur fölskum nafnasmellum í enska-þjálfuðum líkönum. Í framleiðslunotkun þrúgna mistakstíðni upp í 3 fölskar jákvæðar á hverja raunverulega einingu (Alvaro et al., 2024).

Reglufylgniáhætta

Evrópskir gagnaverndaryfirvöld eru meðvitaðir um þetta vandamál. Nokkrir þjóðlegir DPA-aðilar hafa gefið út leiðbeiningar.

Þýski BfDI: GDPR 5. grein (1)(f) gildir um allar skrár. Hún nær yfir ekki-enskur gögn unnið af þriðja-aðila verkfærum.

Franska CNIL: CNIL-ársskýrsla 2024 vakti áhyggjur. Hún merkti AI-verkfæri sem meðhöndla franskar skrár án franskra staðhættis PII-skannunar.

ESB DPA-aðilar almennt: GDPR 25. grein (Persónuvernd í hönnun) krefst verndar sem hentar raunverulegum skrám sem eru unnar. Þetta felur í sér ekki-enska PII í alþjóðlegum uppsetningum.

Áhættan er skýr. Fyrirtæki gæti sýnt 95% PII-greiningu á ensku innihaldi í GDPR-endurskoðun. En ef það meðhöndlar líka þýskar, franskar og pólskar skrár með sama verkfæri munu bil koma í ljós. Endurskoðendur taka eftir. Sektir geta fylgt. Sjá öryggissíðu okkar til að sjá hvernig við tökum á þessu.

Þriggja þrapa hönnun

Rannsóknir og framleiðslunotkun eru sammála um þriggja þrapa blandaða hönnun sem bestu nálgunina.

Þrep 1: Innfæd spaCy-líkön

spaCy veitir þjálfuð líkön fyrir 25 staðhætti. Þetta felur í sér þýsku, frönsku, spænskur, portúgalsku, ítölsku, hollensku, rússnesku, kínversku, japönsku, kóresku og pólsku. Hvert líkan þjálfar á innfæðum texta. Þeir læra setningafræði og einingamynstrin í hverjum staðhætti. Þetta skiptir máli. Innfæð þjálfun þýðir betri heimt og færri fölskar jákvæðar.

Fyrir þýsku: de_core_news_lg meðhöndlar samsett nafnorð og þýsk nafnamynstrin. Fyrir frönsku: fr_core_news_lg meðhöndlar franskar einingar, titla, staðanöfn og stofnanir.

Innfæð líkön slá krosslíkön fyrir nafnakönnun á auðlindaríkum staðhættum.

Þrep 2: Stanza fyrir fleiri staðhætti

Stanza-safn Stanford nær yfir staðhætti sem eru ekki í spaCy. Þetta felur í sér króatísku, slóvenska og úkraínsku. Þetta bætir við umfangi fyrir ESB-talendahópa sem spaCy þjónar ekki. Stanza er ókeypis og opinn uppspretti. Hún samþættist vel með restina af stöflanum.

Þrep 3: XLM-RoBERTa fyrir breitt umfang

Fyrir staðhætti þar sem spaCy og Stanza skortir NER-líkön fyllir XLM-RoBERTa inn. Hún þjálfar á Common Crawl-texta yfir 100 staðhætti. Hún nær 91,4% krosslægu F1 fyrir PII-greiningu (HuggingFace 2024). Hún meðhöndlar kóðaskiptingu vel. Þetta er lykileiginleiki. Hann skiptir máli þegar eitt skjal inniheldur texta á nokkrum staðhættum í einu.

Heimsæktu táknkerfisdók til að sjá hvernig API-kannanir skala með fjöltyngdu magni.

Staðbundnar einingategundir

Líkön einu og sér duga ekki. GDPR-samræming krefst líka einingategundumsviðs fyrir sértækar landskennitölur.

ESB-þjóðlegar kennitölur eftir landi:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Símanúmerssnið: Hvert ESB-land hefur einkvæmar forskeytisbyggingar. +49, +33 og +48 þurfa hvort um sig eigin villuleitarlag.

Heimilisfangsnið: Póstnúmer eru mjög mismunandi. Þýsk PLZ notar 5 tölur. Frönskur kóðar nota 5 tölur (01-99 bil). Breskur póstnúmer eru stafatölur. Spænskur kóðar nota 5 tölur (01000-52999).

Raunverulegt tilvik: Svissneskur lyfjaframleiðandi

Svissneskur fyritæki vinnur ráðningarsamningum. Hver samningur blandar þýskum, frönskum og enskum texta. Sviss hefur fjögur opinber tungumál. Verkfæri þeirra var stillt eingöngu fyrir þýsku. Það misti af öllu frönskum PII.

Samningur fyrir Genf-starfsmann inniheilt franskt AVS-númer (13 tölur), svissneskur bankaTIBAN og nafn á frönskum sniði. Þýska-eingöngu verkfærið miste af frönskum sniðsheitinu. Það tókst ekki að finna frönskur AVS-númerið. Það greindi IBAN-ið aðeins að hluta.

Þriggja þrapa nálgunin vinnur allt skjalið. Hún greinir staðhætti á hverja textahluta. Hún beitir rétta NER-líkaninu á hvern hluta. Hún staðfestir hverja þjóðlega kennitölu með réttum landsskilgreiningunum.

Blandaðar staðhættisskjöl

Erfiðasta tilfellið er staðhættirblandun innan skjals. Dæmi:

  • Enski samningur þýsks fyrirtækis með þýskum starfsmannafærslum (nöfn, skattanúmer)
  • Frönsk GDPR-samþykktareyðublað með enskri persónuverndartilkynningu
  • Spjall þar sem fulltrúinn svarar á ensku og viðskiptavinurinn skrifar á arabísku

XLM-RoBERTa meðhöndlar þetta innfæðilega. Hún þarf enga skýrar staðhættimerki. Hún vinnur blandaðar staðhættiartexta án fyrirframskiptingar. Þetta sparar tíma. Það forðast líka villur frá röngum skiptingum.

Fyrir framleiðslunotkun gefur það að sameina sjálfvirka staðhættigreiningu (á setningarstigi) með XLM-RoBERTa-ályktunum öfluga meðhöndlun á blandaðar staðhættisskjölum.

Hagnýt þrep

Endurskoðaðu umfang verkfærisins. Spurðu þurkkbirgjann um F1-skor fyrir þína sértæku staðhætti. "Styður 20 tungumál" þýðir oft að verkfærið beinar texta í gegnum vélþýðingu fyrst. Það er ekki innfæð könnun.

Kortaðu skrár þínar í staðhætti. Gerðu skráarúttekt sem inniheldur staðhættidreifingarnar. Alþjóðlegt fyrirtæki með 70% ensku, 20% þýsku og 10% frönsku stendur frammi fyrir mismunandi áhættu. Eitt með 95% ensku er í annarri stöðu.

Prófaðu með þjóðlegum auðkennissýnum. Smíðaðu prófasafn með 10 dæmum um þjóðlegar kennitölur í starfsemi þinni -- Steuer-ID, NIR, PESEL, BSN og aðrar. Staðfestu greiningartíðni. Þetta er hraðara en fullkominnar F1-prófun.

Farðu yfir DPIA-mat þitt. Athugaðu hvort staðhættisumsviðið sé innifalið. Ófullkomið DPIA sem gengur út frá eingöngu enskum skrám gæti þurft uppfærslu. Vertu frumkvöðull. Bíddu ekki eftir endurskoðun til að finna bilið.

Fyrir fulla skilgreiningu einingategunda, sjá einingaviðmiðun og FAQ. Fyrir áætlanir og API-kallstíðni, heimsæktu verðlag.


PII-greiningarvél anonym.legal notar þriggja þrapa fjöltyngda nálgun. Hún nær yfir 25 auðlindaríkar staðhætti í gegnum innfæð spaCy-líkön. Stanza bætir við aukatungustaðhættisumsviðinu. XLM-RoBERTa krosslingvistískar transformer-líkön víkka umfangið til 48 staðhætti. Sértækar einingategundir fyrir öll ESB-aðildarríki eru innifaldar.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.