By · Last updated 2026-03-26

Zurück zum BlogTechnisch

Das Problem der mehrsprachigen Dokumente...

72 % der EU-Unternehmen verarbeiten Dokumente in 3+ Sprachen gleichzeitig. Mehrsprachige Dokumente verursachen 45 % höhere PII-Auslassungsraten in...

March 26, 20267 min Lesezeit
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

Mehrsprachige PII: Warum einsprachige Tools versagen.

Aktualisiert für 2026.

Dokumente überschreiten Sprachgrenzen.

Der Arbeitsvertrag eines Schweizer Pharmaunternehmens ist nicht in einer einzigen Sprache verfasst. Die Schweiz hat vier Amtssprachen. Schweizer Unternehmen mischen Deutsch im Hauptteil, Französisch in Rechtsklauseln und Englisch in internationalen Abschnitten. Dies kann in einem einzigen Absatz vorkommen.

Ein belgisches Sitzungsprotokoll enthält niederländischen Text, französische Formalteile und englische Zusammenfassungen. Ein globaler Datenvertrag kann englische technische Spezifikationen und deutsche Rechtsklauseln enthalten.

Das ist kein Sonderfall. Es ist der Standard bei DACH- und EU-Unternehmen. Einsprachige PII-Tools scheitern an diesen Dateien.

Die 45%-Lücke bei der Trefferrate.

Einsprachige NER-Tools haben eine 45% höhere PII-Fehlerrate bei gemischten Dateien. Im Vergleich zu reinen einsprachigen Dateien.

Die Ursache liegt im Design. Ein auf deutschem Text trainiertes Modell kennt lokale Namensformen und Adressregeln. Trifft es auf einen französischen Abschnitt, liegt es außerhalb seines Trainingsbereichs. Namen und IDs in diesem Teil werden schlecht erkannt. Das Modell ist nicht schwach — es wurde für eine andere Sprache entwickelt.

EDPB 2024 stellte fest, dass 72 % der EU-Unternehmen Dateien in drei oder mehr Sprachen gleichzeitig verarbeiten. Gartner 2024 fand, dass mehrsprachige HR-Dateien 67 % mehr PII pro Seite enthalten als einsprachige. Mehr PII plus mehr Fehler vergrößert die Lücke.

Unseren DSGVO-Leitfaden finden Sie für die geltenden Regeln.

Wo Fehler häufen sich.

Der Fehler tritt nicht gleichmäßig in einer Datei auf. PII an Abschnittsübergängen ist am stärksten gefährdet.

Betrachten Sie diese Klausel: deutsche Satzstruktur, ein französischer Mitarbeitername und ein französisches Geburtsdatum — alles in einer Zeile. Das NER-Modell sieht den französischen Namen, wo es einen lokalen erwartet. Es erkennt ihn möglicherweise nicht. Ein auf Französisch trainiertes Modell sieht die deutschen Kontextwörter und kann die Struktur nicht lesen.

HR-Dateien machen dies kostspielig. Gartner fand 67 % mehr PII pro Seite in gemischten HR-Dateien. Fehler an Abschnittsübergängen schaden am meisten beim Dateityp mit den meisten personenbezogenen Daten.

Mehrsprachige Modelle lösen das Problem.

XLM-RoBERTa trainiert gleichzeitig auf Text aus 100 Sprachen. Es verwendet kein neues Modell pro Sprache. Es lernt, dass Namenserkennung in allen Sprachkontexten gleich funktioniert. Ein Name und sein Kontext teilen die gleiche Struktur auf Deutsch, Französisch und Englisch.

Bei gemischten Dateien wechselt das Modell nicht an Abschnittsübergängen. Es liest den vollständigen Text als einen Block. Es wendet an jedem Punkt dieselben Entitätsregeln an.

Feinabstimmung auf Deutsch und Französisch erhöht die Präzision für jede Sprache einzeln. Aber die mehrsprachige Basis erkennt PII an Übergängen, wo einsprachige Modelle versagen.

Für DACH-Unternehmen, deren Dateien linguistische Abschnitte kreuzen, ist dies ein echter Gewinn. Entitäten, die einsprachige Tools an Übergängen verpassen, werden von mehrsprachigen Modellen gefunden.

Unsere Sicherheitsseite zeigt, wie anonym.legal damit umgeht.

Jetzt handeln.

Prüfen Sie den Umfang Ihres Tools. Fragen Sie Ihren Anbieter nach Recall-Werten nach Sprache. „Unterstützt viele Sprachen" kann bedeuten, dass Text zuerst durch maschinelle Übersetzung läuft. Das ist kein natives Scanning.

Kartieren Sie Ihre Dateien nach Sprache. Ein DACH-Unternehmen mit 60 % Deutsch, 30 % Französisch und 10 % Englisch hat andere Lücken.

Testen Sie mit Abschnittsübergangs-Beispielen. Erstellen Sie einen Testdatensatz mit zehn gemischsprachigen Klausel-Beispielen. Prüfen Sie den Recall über die gesamte Datei, nicht nur in den hauptsprachigen Teilen.

Prüfen Sie Ihre DSFAs. Eine DSFA, die auf einsprachigen Unterlagen basiert, ist möglicherweise unvollständig. Korrigieren Sie dies, bevor ein Audit es tut.

API-Details und Entitätsabdeckung finden Sie auf der Preisseite.

anonym.legal verwendet XLM-RoBERTa plus native spaCy- und Stanza-Modelle. Es findet PII über Abschnittsübergänge hinweg auf Deutsch, Französisch, Englisch und in 45 weiteren Sprachen.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.