By · Last updated 2026-06-05

Zurück zum BlogTechnisch

Das 22,7%-Präzisionsproblem von Presidio...

Eine Benchmark-Studie aus 2024 hat ergeben, dass der Personennamenerkenner von Presidio in Geschäftsdokumenten eine Präzision von 22,7 % erreicht...

June 5, 20267 min Lesezeit
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidios 22,7%-Präzisionsproblem

Falschmeldungen bei der PII-Erkennung richten echten Schaden an. Wenn 77,3 % dessen, was dein Tool als „Personennamen" kennzeichnet, keine echten Namen sind, schützt du keine Privatsphäre. Du zerstörst Daten.

Ein Benchmark aus dem Jahr 2024 testete Microsofts Presidio-Standard-NER-Modell anhand von Geschäftsdokumenten. Der Test umfasste Finanzberichte, Kundenkorrespondenz, Produktdokumentation und Support-Tickets. Das Ergebnis: 22,7 % Präzision bei der Namenserkennung.

Diese Zahl ist bemerkenswert. Von 100 markierten Treffern sind 23 echte Einzelnamen. Die anderen 77 sind Falschmeldungen — Produktbezeichnungen, Markenbegriffe oder Stadtbezeichnungen.

Drei von vier Erkennungen sind falsch. Das ist kein kleines Kalibrierungsproblem. Das ist ein unbrauchbares Tool für die Verarbeitung von Geschäftsdokumenten.

Warum das passiert

Presidio verwendet standardmäßig spaCys en_core_web_lg-Modell. Dieses Modell wurde mit Nachrichtentexten trainiert. In Nachrichten sind die meisten Eigennamen tatsächlich Personen oder Orte.

Geschäftsdokumente sind anders.

Produktbezeichnungen, die wie Einzelnamen wirken. „Apple iPhone 15 Pro Versanddaten" wird als PERSON gekennzeichnet. Ebenso „Samsung Galaxy Tab" und „Cisco Meraki-Bereitstellung."

Firmenbezeichnungen mit namensähnlichen Teilen. In „Johnson Controls Quartalsergebnisse" wird „Johnson" als PERSON markiert. „Goldman Sachs Portfolio" löst denselben Fehler aus.

Ortsbezeichnungen, die Personenerkennung auslösen. „Victoria Harbour Projekt" markiert „Victoria" als PERSON. „Santiago Hub" markiert „Santiago" auf dieselbe Weise.

Das Modell kann nicht unterscheiden, ob „Apple" ein Unternehmen oder „Apple Smith" eine Person ist. Diese Lücke ist die Ursache der meisten Falschmeldungen. Nachrichtentexte haben es darauf trainiert, Eigennamen als Personen oder Orte zu behandeln. Geschäftstexte brechen diese Regel ständig.

Die nachgelagerten Auswirkungen

Ein Datenanalyseunternehmen nutzte Presidio, um Kundenbefragungen vor der Weitergabe zu bereinigen. Eine Prüfung fand vier Probleme. Erstens wurden bei 40 % der Befragungen Produktbezeichnungen fälschlicherweise entfernt. Zweitens wurden Stadtbezeichnungen aus jeder Antwort herausgestrichen. Drittens wurden Markenerwähnungen aus dem Analysedatensatz gelöscht. Viertens konnte die Stimmung zu bestimmten Produkten nicht mehr ausgewertet werden.

Das Analyseteam erhielt redigierten Text, aus dem alle Produktverweise entfernt worden waren. Die ursprüngliche Befragung hatte iPhone Pro und das Apple-Ladegerät erwähnt. Diese Bedeutung war verloren.

Das Unternehmen schützte die Privatsphäre nicht besser. Es zerstörte Daten, ohne Compliance zu erlangen. Presidio wurde nach der Prüfung abgelöst.

Sieh unsere Compliance-Übersicht für den Einfluss der Erkennungsqualität auf deinen regulatorischen Status.

Ein besserer Ansatz: Hybride Erkennung

Das Problem ist nicht auf Presidio beschränkt. Token-basiertes NER ohne Kontext wird dieses Problem immer haben. Die Lösung ist kontextbewusste Erkennung.

Warum Transformer helfen: Ein Modell wie XLM-RoBERTa liest den vollständigen Satz. „Apple gab seine Ergebnisse bekannt" → Apple ist ein Unternehmen. „Apple Smith trat dem Team bei" → Apple ist ein Vorname. Der Kontext zeigt, was was ist.

Das verbessert die Präzision bei gleichbleibend hohem Recall. Sieh den Vergleich unten.

AnsatzPräzisionRecall
Presidio Standard-NER22,7 %~85 %
Nur Regex~95 %~40 %
Hybrid (Regex + NLP + Transformer)~85 %~80 %

Der hybride Ansatz erreicht 85 % Präzision. Das entspricht einer Falscherkennungsrate von 15 %. Weit besser als 77,3 %. Für Geschäftsdokumente ist dieser Unterschied entscheidend.

Der hybride Stack hat vier Schritte:

  1. Regex-Schicht: Findet strukturierte IDs — E-Mails, Telefonnummern, Sozialversicherungsnummern, IBANs. Formate sind fest definiert, Falschmeldungen selten. Diese Schicht läuft zuerst.

  2. NLP-Schicht (spaCy): Standard-NER für Personen, Firmen und Orte. Hoher Recall, geringere Präzision.

  3. Transformer-Schicht (XLM-RoBERTa): Bewertet jedes NLP-Ergebnis mit vollem Satzkontext neu. „Apple" in einem Produktkontext verliert seinen Entitäts-Score. „John" in einem Beschwerdtext gewinnt ihn.

  4. Konfidenz-Schwellenwert: Nur Treffer über einem gesetzten Score gelangen in die Ausgabe. Schwellenwert für Analyse-Anwendungsfälle erhöhen. Für HIPAA-Anonymisierung senken.

Ergebnisse nach dem Wechsel

Das Analyseunternehmen wechselte zu hybrider Erkennung. Die Verbesserungen waren eindeutig. Falschmeldungen bei Produktbezeichnungen sanken von 40 % auf 3 %. Falschmeldungen bei Stadtbezeichnungen fielen auf nahezu null. Der Recall für echte Identitäten blieb bei ~82 %, leicht unter den vorherigen 85 %, aber die Präzision verbesserte sich deutlich.

Die Befragungen wurden wieder nutzbar. „iPhone", „Apple", „Samsung" und „Chicago" verblieben im Text. Kundennamen in Beschwerdekontexten wurden korrekt anonymisiert.

Hybride Erkennung erfordert mehr Rechenleistung. Bei großen Jobs sind die Laufzeiten etwas länger. Für die meisten Geschäftsanwendungen ist der Präzisionsgewinn die Kosten wert. Das Unternehmen konnte wieder Analysen durchführen. Das war der ursprüngliche Zweck der Befragungsdaten.

Mehr zur Erkennungsmethodik in der Sicherheitsübersicht.

Wann hohe Falscherkennungsraten akzeptabel sind

Manche Kontexte bevorzugen Recall gegenüber Präzision.

HIPAA Safe Harbor: Ein verfehlter echter Treffer ist eine Verletzung. Eine Falscherkennungsrate von 10 % ist akzeptabel, wenn echte PHI nie verfehlt werden. Übermäßige Entfernung ist sicherer als unzureichende Entfernung.

Rechtliche Prüfung: Das Verpassen eines privilegierten Kontakts kann Anwaltsprivileg aufheben. Falschmeldungen erfordern Überprüfung, schaffen aber keine Haftung.

Business Analytics: Übermäßige Entfernung zerstört Daten ohne Compliance-Gewinn. Präzision ist hier wichtiger. Hybrider Ansatz mit hohem Konfidenz-Schwellenwert verwenden. Das hält Markenbezeichnungen und Stadtbegriffe in der Ausgabe. Nur echte Personennamen werden entfernt.

Die richtige Balance hängt vom Anwendungsfall ab. Tools mit einstellbarem Schwellenwert geben dir die Kontrolle. Kein einzelner Standard funktioniert für jeden Kontext.

Unsere FAQ beantwortet häufige Fragen zu Schwellenwerten und Erkennungsmodi.

Fazit

Eine Präzision von 22,7 % bedeutet, dass 3 von 4 Erkennungen falsch sind. Für Geschäftsdokumente macht das die Ausgabe für die Analyse unbrauchbar. Es vermittelt auch falsches Vertrauen in die Compliance.

Hybride Erkennung löst das. Sie kombiniert Regex, NLP und Transformer-Scoring. Daten bleiben nach der Anonymisierung nutzbar. Echte Personennamen werden entfernt. Markenbezeichnungen, Stadtbegriffe und Produktkennungen bleiben erhalten.

Wenn du Presidio wegen Falschmeldungen verlassen hast, ist das der richtige Weg. Nicht eine neue Konfiguration desselben Modells. Eine andere Architektur für Geschäftsdokumentkontexte.

Quellen

Priva PII Benchmark 2024: Presidio Präzisionsbewertung. VERIFIED-EXTERNAL.

Microsoft Presidio: Unterstützte Entitäten und Modellarchitektur. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Trainingsdaten und Einschränkungen. VERIFIED-EXTERNAL.

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.