By · Last updated 2026-04-03

Zurück zum BlogTechnisch

Die Steuer auf falsche Positive: Warum das...

Das Presidio GitHub-Problem #1071 dokumentiert systematische falsche Positive.

April 3, 20268 min Lesezeit
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Die Kosten von Falschmeldungen bei PII-Erkennungstools

Aktualisiert für 2026

Die meisten PII-Tools werden an der Trefferquote gemessen. Die Trefferquote gibt an, wie viel echte PII das Tool findet. Aber Präzision ist genauso wichtig. Präzision misst, wie viele der Warnungen des Tools echte PII sind.

Niedrige Präzision ist teuer. Ein System mit 95 % Trefferquote und 22,7 % Präzision findet zwar die meisten PII. Doch für jede echte PII-Entität erzeugt es auch 3,4 Fehlwarnungen. In einem Datensatz mit 10.000 echten PII-Entitäten gibt das System rund 44.000 Warnungen aus. Davon sind etwa 34.000 falsch. Jede davon kostet Prüfzeit oder führt zu Über-Redaktion.

Das ist die Falschmeldungssteuer. Sie ist der Aufwand, den jedes Team bezahlt, wenn es ein hochsendes, niedrig präzises PII-System im Produktivbetrieb einsetzt. Die direkten Kosten sind Prüferzeit. Die indirekten Kosten sind schlimmer: Zu stark geschwärzte Dokumente verbergen nützliche Daten, verlangsamen die Arbeit und untergraben das Vertrauen in das Tool.

Was Presidio Issue #1071 zeigt

Microsoft Presidio GitHub-Diskussion #1071 (2024) dokumentiert ein konkretes Muster. Die TFN (Tax File Number)- und PCI-Recognizer nutzen Prüfsummenvalidierung. Zahlen, die die Prüfsumme bestehen, erhalten einen Score von 1,0 — maximale Konfidenz. PII-Kontext wird dabei nicht geprüft.

Der Kern des Problems: Die Kontextwortprüfung läuft nach dem Prüfsummenschritt, nicht davor. Eine Zahl, die die Prüfsumme besteht, erhält unabhängig vom Umgebungstext einen Höchstwert. In Finanztabellen, wissenschaftlichen Datensätzen oder Log-Dateien überschwemmt das die Ausgabe mit Fehlwarnungen. Eine Filterung über den Score-Schwellenwert hilft nicht. Die Scores sind bereits beim Maximum.

Ein zweites Muster zeigt sich in Presidio Issue #999. Die deutsche Wortsegmentierung versagt bei zusammengesetzten Nomen. Wörter wie Bundesbehörde können falsch segmentiert und als Personennamen erkannt werden. Das erzeugt Rauschen in jedem deutschsprachigen Dokument.

Das Problem mit 22,7 % Präzision

Alvaro et al. (2024) testeten Presidio mit Standardeinstellungen auf gemischtsprachigen Unternehmensdatensätzen. Sie fanden 22,7 % Präzision. In echten Dokumenten ist weniger als eine von vier Presidio-Warnungen eine echte PII-Entität. Das deckt sich mit Berichten aus der Praxis. Ein auf Trefferquote optimiertes Tool erzeugt im Produktivbetrieb zu viel Rauschen.

Eine DICOM-Studie aus 2024 zeigte, dass ein score_threshold von 0,7 in 38 von 39 medizinischen Bildern noch immer Fehlwarnungen hinterließ. Ein Schwellenwert, der Rauschen in einem Dokumenttyp beseitigt, erzeugt in einem anderen Typ verpasste Erkennungen.

Das ist kein Presidio-spezifisches Problem. Jeder feste Schwellenwert erzwingt einen Kompromiss. Ein hoher Schwellenwert senkt Fehlwarnungen, erhöht aber verpasste Erkennungen. Ein niedriger Schwellenwert erhöht die Trefferquote, bläht aber die Warteschlange auf.

Kontextbewusstes Scoring

Die Lösung ist kontextbewusstes Konfidenz-Scoring. Statt allein auf Basis des Musterfunds zu bewerten, erhöht das System die Konfidenz, wenn Kontextwörter in der Nähe erscheinen. Es senkt den Score, wenn Kontext fehlt.

Bei der TFN-Erkennung: Wörter wie "tax file number," "TFN" oder "Australian tax" in der Nähe einer Zahl erhöhen deren Score. Eine Zahl, die die Prüfsumme besteht, aber keine nahen Kontextwörter hat, erhält einen Score unterhalb der Prüfschwelle. Die Fehlwarnung wird unterdrückt.

Bei sprachübergreifendem Rauschen: Entitätstypen, die an bestimmte Länder gebunden sind, können auf Dokumente in der passenden Sprache beschränkt werden. Ein auf Englisch und australisches Englisch begrenzter TFN-Detektor beseitigt Rauschen. Ohne diese Einschränkung auf deutschen Texten ist das die Ursache des Problems.

Die dritte Schicht in einem Hybridsystem ist ein Transformermodell. Es liest das volle Kontextfenster rund um jeden Kandidaten. Es unterscheidet "John Smith, Patient ID 12345" von einem Produktcode, der zufällig einem Namensmuster entspricht. Kontext löst die Mehrdeutigkeit, die Regex und Prüfsummen nicht auflösen können.

Wie die dreistufige Erkennungs-Engine Präzision im Maßstab handhabt, zeigt unser Leitfaden. Der mehrsprachige PII-Erkennungs-Guide erklärt, wie sprachübergreifendes Rauschen die DSGVO-Compliance beeinflusst.

Praktische Schritte

Vor dem Einsatz eines PII-Tools sollte Präzision gemessen werden — nicht nur Trefferquote.

Führen Sie das Tool auf einem Dokumentensatz mit bekannter PII und bekannter Nicht-PII aus. Zählen Sie Warnungen in beiden Gruppen. Berechnen Sie true_positives / (true_positives + false_positives). Diese Zahl zeigt die Prüfbelastung, bevor Sie sich für einen Rollout entscheiden.

Für Teams, die bereits Presidio einsetzen, ist die Score-Verteilungsanalyse ein schneller Weg. Exportieren Sie eine Stichprobe von Erkennungen mit ihren Konfidenzwerten. Zählen Sie, wie viele unter 0,6, 0,7 und 0,8 liegen. Ein hoher Anteil von Hochscore-Warnungen in sauberem Text zeigt eine Kontext-Lücke, kein Schwellenwertproblem. Die Security-Compliance-Übersicht erklärt, wie dieser Befund in einer DSFA dokumentiert wird.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.