By · Last updated 2026-03-23

Zurück zum BlogTechnisch

Das Problem der falsch positiven Ergebnisse...

Eine Benchmark-Studie aus dem Jahr 2024 fand heraus, dass Presidio 13.536 falsch positive Namensdetektionen über 4.434 Proben generierte...

March 23, 20268 min Lesezeit
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

title: "Presidio False Positives: Was sie im Rechts- und Gesundheitswesen kosten" description: "Eine Studie aus 2024 fand, dass Presidio 13.536 Falschmeldungen bei Personennamen in 4.434 Dokumenten erzeugte — Pronomen, Schiffsnamen und Länder wurden als Personennamen eingestuft. Das sind die Kosten." category: technical publishedAt: 2026-03-23 tags:

  • Presidio Falsch-Positiv-Rate
  • PII-Erkennungsgenauigkeit
  • automatisierte Schwärzungskosten
  • rechtliche Dokumentenprüfung
  • hybride PII-Erkennung readingTime: 8

Aktualisiert für 2026

Das 22,7%-Präzisionsproblem

Eine Studie aus 2024 testete Microsoft Presidio an Geschäftsdokumenten. Presidio ist ein Open-Source-PII-Tool. Rechtsabteilungen und Gesundheitseinrichtungen nutzen es weit verbreitet.

Die Studie maß, wie oft Presidio korrekt lag. Von allen markierten Elementen: Wie viele waren tatsächlich Personennamen?

Das Ergebnis: 22,7 %. Etwa 77 von 100 Markierungen waren falsch. Die Studie zählte 13.536 Fehlmarkierungen in 4.434 Beispieldateien.

Die Fehler waren nicht zufällig. Sie folgten klaren Mustern:

  • Pronomen als Personen markiert ("I" am Satzanfang)
  • Schiffsbezeichnungen als Personen markiert ("ASL Scorpio")
  • Firmennamen als Personen markiert ("Deloitte & Touche")
  • Ländernamen als Personen markiert ("Argentinien", "Singapur")

Das sind keine seltenen Ausnahmen. Sie treten auf, sobald ein allgemeines NLP-Modell auf Fachtexte trifft. Das Modell wurde nicht darauf trainiert, sie zu unterscheiden.

Was Fehlmarkierungen kosten

In der Rechts- und Gesundheitsarbeit braucht jede Markierung eine Antwort. Teams haben drei Optionen. Alle drei verursachen echte Kosten.

Option 1: Ein Mensch prüft jede Markierung. Anwalts- und Expertenzeit kostet 200 bis 800 US-Dollar pro Stunde. Bei 22,7 % Genauigkeit ist das Volumen enorm. Das ist in großem Maßstab nicht wirtschaftlich. Weitere Infos zur Kostenentwicklung finden Sie unter eDiscovery PII Automation and Legal Review Cost Reduction.

Option 2: Prüfung überspringen und dem Ergebnis vertrauen. Das ist ebenfalls riskant. Wenn 77 % der "geschwärzten" Elemente nicht sensitiv sind, entsteht rechtliches Risiko. Gerichte haben Anwälte für übermäßiges Schwärzen bestraft. Dokumentierte Fälle unter eDiscovery Over-Redaction Sanctions.

Option 3: Den Score-Schwellenwert erhöhen. Presidio erlaubt, einen score_threshold zu setzen, um schwache Markierungen auszufiltern. Eine DICOM-Studie aus 2024 testete dies bei 0,7 — eine relativ hohe Hürde. Das Ergebnis: 38 von 39 DICOM-Bildern hatten weiterhin Fehlmarkierungen. Schwellenwerte helfen. Sie beheben die Ursache nicht.

Warum allgemeine NLP-Modelle hier versagen

Die Lücke bei Presidio entsteht durch einen Mismatch zwischen Trainingsdaten und realer Nutzung.

Rechtsdokumente sind voll mit groß geschriebenen Fachbegriffen. Fallnamen, Gesetzestitel und Anlagebezeichnungen sehen für ein allgemeines Modell wie personenbezogene Daten aus. Es markiert sie. Die meisten sind keine personenbezogenen Daten.

Gesundheitsdaten bringen weitere Probleme. Medikamentennamen, Gerätecodes und klinische Abkürzungen führen die Erkennung in die Irre. „Pt." bedeutet Patient. „Dr." bedeutet Arzt. Diese Abkürzungen stören die Entitätserkennung auf schwer vorhersehbare Weise.

Finanzdateien enthalten Produktcodes, Entitätsstrings und Konto-IDs, die ähnliche Muster wie personenbezogene Daten aufweisen.

Ein Modell auf Fachdaten zu trainieren hilft. Es braucht jedoch Zeit und Aufwand, um es zu erstellen und aktuell zu halten.

Wie hybride Erkennung das Problem löst

Das Fehlmarkierungsproblem hat eine klare Lösung. Teilen Sie die Arbeit nach Datentyp auf.

Musterregeln für strukturierte Daten. Sozialversicherungsnummern, Telefonnummern, E-Mail-Adressen und ID-Formate folgen festen Regeln. Eine Zeichenkette passt entweder zum Muster und besteht den Prüfziffertest — oder nicht. Null Fehlmarkierungen bei gültigen Regelwerken.

Sprachmodelle für Freitext. Vor- und Nachnamen, Firmennamen und Orte in Fließtext haben keine feste Struktur. NLP findet sie, wo Regeln versagen. Konfidenzwerte und Kontextprüfungen senken die Fehlmarkierungsrate.

Typspezifische Score-Einstellungen für Feinsteuerung. Rechtsteams, die kein Risiko bei übermäßigem Schwärzen eingehen können, setzen hohe Schwellenwerte. Forschungsteams mit hohem Recall-Bedarf setzen niedrigere. Mehr zu Score-Tiers unter Binary PII Detection and Confidence Scoring for Compliance.

Das Ergebnis: weit weniger Fehler als mit Presidio-Standardwerten. Der Recall bleibt stark, wo Regeln allein zu viel verpassen würden.

Für Rechts- und Gesundheitsteams lautet die Kernfrage nicht, ob Fehlmarkierungen existieren. Sie existieren immer in NLP-Systemen. Die Frage ist, ob das Tool erlaubt, den Kompromiss einzustellen, zu messen und zu dokumentieren.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.