Presidios 22,7%-Präzisionsproblem
Falschmeldungen bei der PII-Erkennung richten echten Schaden an. Wenn 77,3 % dessen, was dein Tool als „Personennamen" kennzeichnet, keine echten Namen sind, schützt du keine Privatsphäre. Du zerstörst Daten.
Ein Benchmark aus dem Jahr 2024 testete Microsofts Presidio-Standard-NER-Modell anhand von Geschäftsdokumenten. Der Test umfasste Finanzberichte, Kundenkorrespondenz, Produktdokumentation und Support-Tickets. Das Ergebnis: 22,7 % Präzision bei der Namenserkennung.
Diese Zahl ist bemerkenswert. Von 100 markierten Treffern sind 23 echte Einzelnamen. Die anderen 77 sind Falschmeldungen — Produktbezeichnungen, Markenbegriffe oder Stadtbezeichnungen.
Drei von vier Erkennungen sind falsch. Das ist kein kleines Kalibrierungsproblem. Das ist ein unbrauchbares Tool für die Verarbeitung von Geschäftsdokumenten.
Warum das passiert
Presidio verwendet standardmäßig spaCys en_core_web_lg-Modell. Dieses Modell wurde mit Nachrichtentexten trainiert. In Nachrichten sind die meisten Eigennamen tatsächlich Personen oder Orte.
Geschäftsdokumente sind anders.
Produktbezeichnungen, die wie Einzelnamen wirken. „Apple iPhone 15 Pro Versanddaten" wird als PERSON gekennzeichnet. Ebenso „Samsung Galaxy Tab" und „Cisco Meraki-Bereitstellung."
Firmenbezeichnungen mit namensähnlichen Teilen. In „Johnson Controls Quartalsergebnisse" wird „Johnson" als PERSON markiert. „Goldman Sachs Portfolio" löst denselben Fehler aus.
Ortsbezeichnungen, die Personenerkennung auslösen. „Victoria Harbour Projekt" markiert „Victoria" als PERSON. „Santiago Hub" markiert „Santiago" auf dieselbe Weise.
Das Modell kann nicht unterscheiden, ob „Apple" ein Unternehmen oder „Apple Smith" eine Person ist. Diese Lücke ist die Ursache der meisten Falschmeldungen. Nachrichtentexte haben es darauf trainiert, Eigennamen als Personen oder Orte zu behandeln. Geschäftstexte brechen diese Regel ständig.
Die nachgelagerten Auswirkungen
Ein Datenanalyseunternehmen nutzte Presidio, um Kundenbefragungen vor der Weitergabe zu bereinigen. Eine Prüfung fand vier Probleme. Erstens wurden bei 40 % der Befragungen Produktbezeichnungen fälschlicherweise entfernt. Zweitens wurden Stadtbezeichnungen aus jeder Antwort herausgestrichen. Drittens wurden Markenerwähnungen aus dem Analysedatensatz gelöscht. Viertens konnte die Stimmung zu bestimmten Produkten nicht mehr ausgewertet werden.
Das Analyseteam erhielt redigierten Text, aus dem alle Produktverweise entfernt worden waren. Die ursprüngliche Befragung hatte iPhone Pro und das Apple-Ladegerät erwähnt. Diese Bedeutung war verloren.
Das Unternehmen schützte die Privatsphäre nicht besser. Es zerstörte Daten, ohne Compliance zu erlangen. Presidio wurde nach der Prüfung abgelöst.
Sieh unsere Compliance-Übersicht für den Einfluss der Erkennungsqualität auf deinen regulatorischen Status.
Ein besserer Ansatz: Hybride Erkennung
Das Problem ist nicht auf Presidio beschränkt. Token-basiertes NER ohne Kontext wird dieses Problem immer haben. Die Lösung ist kontextbewusste Erkennung.
Warum Transformer helfen: Ein Modell wie XLM-RoBERTa liest den vollständigen Satz. „Apple gab seine Ergebnisse bekannt" → Apple ist ein Unternehmen. „Apple Smith trat dem Team bei" → Apple ist ein Vorname. Der Kontext zeigt, was was ist.
Das verbessert die Präzision bei gleichbleibend hohem Recall. Sieh den Vergleich unten.
| Ansatz | Präzision | Recall |
|---|---|---|
| Presidio Standard-NER | 22,7 % | ~85 % |
| Nur Regex | ~95 % | ~40 % |
| Hybrid (Regex + NLP + Transformer) | ~85 % | ~80 % |
Der hybride Ansatz erreicht 85 % Präzision. Das entspricht einer Falscherkennungsrate von 15 %. Weit besser als 77,3 %. Für Geschäftsdokumente ist dieser Unterschied entscheidend.
Der hybride Stack hat vier Schritte:
-
Regex-Schicht: Findet strukturierte IDs — E-Mails, Telefonnummern, Sozialversicherungsnummern, IBANs. Formate sind fest definiert, Falschmeldungen selten. Diese Schicht läuft zuerst.
-
NLP-Schicht (spaCy): Standard-NER für Personen, Firmen und Orte. Hoher Recall, geringere Präzision.
-
Transformer-Schicht (XLM-RoBERTa): Bewertet jedes NLP-Ergebnis mit vollem Satzkontext neu. „Apple" in einem Produktkontext verliert seinen Entitäts-Score. „John" in einem Beschwerdtext gewinnt ihn.
-
Konfidenz-Schwellenwert: Nur Treffer über einem gesetzten Score gelangen in die Ausgabe. Schwellenwert für Analyse-Anwendungsfälle erhöhen. Für HIPAA-Anonymisierung senken.
Ergebnisse nach dem Wechsel
Das Analyseunternehmen wechselte zu hybrider Erkennung. Die Verbesserungen waren eindeutig. Falschmeldungen bei Produktbezeichnungen sanken von 40 % auf 3 %. Falschmeldungen bei Stadtbezeichnungen fielen auf nahezu null. Der Recall für echte Identitäten blieb bei ~82 %, leicht unter den vorherigen 85 %, aber die Präzision verbesserte sich deutlich.
Die Befragungen wurden wieder nutzbar. „iPhone", „Apple", „Samsung" und „Chicago" verblieben im Text. Kundennamen in Beschwerdekontexten wurden korrekt anonymisiert.
Hybride Erkennung erfordert mehr Rechenleistung. Bei großen Jobs sind die Laufzeiten etwas länger. Für die meisten Geschäftsanwendungen ist der Präzisionsgewinn die Kosten wert. Das Unternehmen konnte wieder Analysen durchführen. Das war der ursprüngliche Zweck der Befragungsdaten.
Mehr zur Erkennungsmethodik in der Sicherheitsübersicht.
Wann hohe Falscherkennungsraten akzeptabel sind
Manche Kontexte bevorzugen Recall gegenüber Präzision.
HIPAA Safe Harbor: Ein verfehlter echter Treffer ist eine Verletzung. Eine Falscherkennungsrate von 10 % ist akzeptabel, wenn echte PHI nie verfehlt werden. Übermäßige Entfernung ist sicherer als unzureichende Entfernung.
Rechtliche Prüfung: Das Verpassen eines privilegierten Kontakts kann Anwaltsprivileg aufheben. Falschmeldungen erfordern Überprüfung, schaffen aber keine Haftung.
Business Analytics: Übermäßige Entfernung zerstört Daten ohne Compliance-Gewinn. Präzision ist hier wichtiger. Hybrider Ansatz mit hohem Konfidenz-Schwellenwert verwenden. Das hält Markenbezeichnungen und Stadtbegriffe in der Ausgabe. Nur echte Personennamen werden entfernt.
Die richtige Balance hängt vom Anwendungsfall ab. Tools mit einstellbarem Schwellenwert geben dir die Kontrolle. Kein einzelner Standard funktioniert für jeden Kontext.
Unsere FAQ beantwortet häufige Fragen zu Schwellenwerten und Erkennungsmodi.
Fazit
Eine Präzision von 22,7 % bedeutet, dass 3 von 4 Erkennungen falsch sind. Für Geschäftsdokumente macht das die Ausgabe für die Analyse unbrauchbar. Es vermittelt auch falsches Vertrauen in die Compliance.
Hybride Erkennung löst das. Sie kombiniert Regex, NLP und Transformer-Scoring. Daten bleiben nach der Anonymisierung nutzbar. Echte Personennamen werden entfernt. Markenbezeichnungen, Stadtbegriffe und Produktkennungen bleiben erhalten.
Wenn du Presidio wegen Falschmeldungen verlassen hast, ist das der richtige Weg. Nicht eine neue Konfiguration desselben Modells. Eine andere Architektur für Geschäftsdokumentkontexte.
Quellen
Priva PII Benchmark 2024: Presidio Präzisionsbewertung. VERIFIED-EXTERNAL.
Microsoft Presidio: Unterstützte Entitäten und Modellarchitektur. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg Trainingsdaten und Einschränkungen. VERIFIED-EXTERNAL.