By · Last updated 2026-03-26

Tilbage til BlogTeknisk

Flersproget PII: Ensprogede værktøjer fejler

72 % af EU's virksomheder behandler dokumenter på 3+ sprog samtidigt. Flersprogede dokumenter giver 45 % højere andel af oversete PII i ensprogede NER-værktøjer.

March 26, 20267 min læsning
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

Flersproget PII: Hvorfor ensprogede værktøjer fejler

Opdateret for 2026.

Dokumenter krydser sproggrænser

En schweizisk farmaceutisk virksomheds ansættelseskontrakt er ikke skrevet på ét sprog. Schweiz har fire officielle sprog. Schweiziske virksomheder blander tysk i hoveddelen, fransk i juridiske klausuler og engelsk i globale afsnit. Dette kan forekomme i ét og samme afsnit.

Et belgisk bestyrelsesmødereferat har hollandsk tekst, franske formelle dele og engelske resuméer. En global dataaftale kan have engelske tekniske specifikationer og tyske rettighedsklausuler.

Dette er ikke undtagelsen. Det er normen for virksomheder i DACH-regionen og EU. Ensprogede PII-værktøjer fejler på disse dokumenter.

Hullet på 45 % fejlrate

Ensprogede NER-værktøjer har 45 % højere PII-fejlrate i flersprogede dokumenter. Det er sammenlignet med rene etsprogede dokumenter.

Årsagen er designmæssig. En model trænet på tysk tekst kender lokale navneformer og adresseregler. Når den støder på et fransk afsnit, er den uden for sit træningstermometer. Navne og ID-numre i den del detekteres dårligt. Modellen er ikke svag — den er blot bygget til et andet sprog.

EDPB 2024 fandt, at 72 % af EU's virksomheder behandler dokumenter på tre eller flere sprog samtidigt. Gartner 2024 fandt, at flersprogede HR-dokumenter indeholder 67 % mere PII pr. side end etsprogede. Mere PII plus flere fejl forstærker problemet.

Se vores GDPR-vejledning for de gældende regler.

Hvor fejlene koncentreres

Fejlene er ikke jævnt fordelt i et dokument. PII ved sektionsskift er mest udsat.

Tag denne klausul: tysk sætningsstruktur, et fransk medarbejdernavn og en fransk fødselsdato — alt i én linje. NER-modellen ser det franske navn, hvor den forventer et lokalt navn. Den markerer det muligvis ikke. En fransktrænset model ser de tyske kontekstord og kan ikke læse strukturen.

HR-dokumenter gør dette kostbart. Gartner fandt 67 % mere PII pr. side i flersprogede HR-filer. Fejl ved sektionsskift er mest skadelige i den filtype, der indeholder flest personoplysninger.

Tværsproglige modeller løser problemet

XLM-RoBERTa træner på tekst fra 100 sprog på én gang. Den anvender ikke en ny model pr. sprog. Den lærer, at navnegenkendelse fungerer ens på tværs af sproglige kontekster. Et navn og dets kontekst har samme struktur på tysk, fransk og engelsk.

For flersprogede dokumenter skifter modellen ikke ved et sektionsskift. Den læser den samlede tekst som én blok. Den anvender de samme entitetsregler overalt.

Finjustering på tysk og fransk øger præcisionen for hvert enkelt sprog. Men den tværsproglige base fanger PII ved skift, hvor ensprogede modeller fejler.

For DACH-virksomheder, hvis dokumenter krydser sproglige sektioner, er dette en reel gevinst. Entiteter, som ensprogede værktøjer overser ved skift, fanges af tværsproglige modeller.

Se vores sikkerhedsside for, hvordan anonym.legal håndterer dette.

Anbefalede tiltag

Tjek dit værktøjs dækningsomfang. Bed din leverandør om recall-score pr. sprogkode. "Understøtter mange sprog" kan betyde, at teksten først maskinoversættes. Det er ikke nativ scanning.

Kortlæg dine dokumenter efter sprog. En DACH-virksomhed med 60 % tysk, 30 % fransk og 10 % engelsk har forskellige dækningsgab.

Test med eksempler på sektionsskift. Byg et testsæt med ti flersprogede klausuleksempler. Tjek recall i hele dokumentet, ikke kun i den primære sprogdel.

Gennemgå dine DPIA'er. En DPIA baseret på etsprogede registreringer kan være ufuldstændig. Ret den, inden en audit gør det.

For API-detaljer og entitetsdækning, se prissiden.

anonym.legal anvender XLM-RoBERTa kombineret med native spaCy- og Stanza-modeller. Det finder PII på tværs af sektionsskift på tysk, fransk, engelsk og 45 andre sprogkoder.

Kilder

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.