Zurück zum BlogTechnisch

Das Problem der falsch positiven Ergebnisse...

Eine Benchmark-Studie aus dem Jahr 2024 fand heraus, dass Presidio 13.536 falsch positive Namensdetektionen über 4.434 Proben generierte...

March 23, 20268 min Lesezeit
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Das 22,7%-Präzisionsproblem in der Produktion

Eine Benchmark-Studie aus dem Jahr 2024 über Microsoft Presidio – die Open-Source-PII-Detektionsengine, die in der Rechtstechnologie, im Gesundheitswesen und in Anwendungen zum Schutz von Unternehmensdaten verwendet wird – ergab eine 22,7%-Präzisionsrate bei der Erkennung von Personennamen in Geschäftsdokumenten.

Die Präzision misst die Genauigkeit positiver Identifikationen: Welcher Prozentsatz der Elemente, die das Tool als "Personennamen" gekennzeichnet hat, sind tatsächlich Personennamen. Bei 22,7% sind ungefähr 77 von 100 gekennzeichneten Elementen falsch positiv.

Die Benchmark dokumentierte 13.536 falsch positive Namensdetektionen über 4.434 Dokumentproben. Die falsch positiven Ergebnisse umfassten:

  • Pronomen, die als Personennamen gekennzeichnet wurden ("Ich" am Satzanfang)
  • Schiffsnamen, die als Personennamen gekennzeichnet wurden ("ASL Scorpio")
  • Organisationsnamen, die als Personennamen gekennzeichnet wurden ("Deloitte & Touche")
  • Ländernamen, die als Personennamen gekennzeichnet wurden ("Argentinien," "Singapur")

Dies sind keine Grenzfälle. Es handelt sich um systematische Muster, die auftreten, wenn ein allgemeines NLP-Modell, das auf gemischten Korpora trainiert wurde, auf domänenspezifische Dokumenttypen angewendet wird, in denen Eigennamen in Kontexten erscheinen, die das Modell nicht trainiert wurde, um zu disambiguieren.

Die Kostenstruktur von falsch positiven Ergebnissen im großen Maßstab

In rechtlichen und gesundheitlichen Umgebungen sind falsch positive Ergebnisse nicht kostenlos. Jedes gekennzeichnete Element erfordert eine Entscheidung: entweder eine menschliche Überprüfung zur Bestätigung oder Ablehnung des Flags oder eine automatische Verarbeitung, die das falsch positive Ergebnis unberührt lässt.

Option 1: Menschliche Überprüfung jedes gekennzeichneten Elements. Bei 200 bis 800 $ pro Stunde für Anwälte oder Spezialisten ist die Überprüfung von falsch positiven Ergebnissen aus einem System mit 22,7% Präzision wirtschaftlich untragbar im großen Maßstab. Bei einer Produktion von 10.000 Dokumenten mit 100 gekennzeichneten Elementen pro Dokument bei 22,7% Präzision erfordern ungefähr 77.300 Elemente eine menschliche Überprüfung. Bei 5 Minuten pro Element zu 300 $ pro Stunde sind das 6.442 Stunden Überprüfungszeit – ungefähr 1,9 Millionen $.

Option 2: Manuelle Überprüfung überspringen und automatische Verarbeitung akzeptieren. Das Ergebnis ist eine Produktion, bei der 77% der "redigierten" Elemente tatsächlich nicht sensibel waren – was eine Überredaktionshaftung (entdeckbare Inhalte ohne Grund zurückgehalten) schafft, die Nützlichkeit des Dokuments zerstört und möglicherweise Sanktionen auslöst.

Option 3: Schwellenwerte für Punktzahlen. Presidio ermöglicht die Konfiguration von score_threshold, um falsch positive Ergebnisse zu reduzieren, indem nur Elemente über einem Vertrauensschwellenwert gekennzeichnet werden. Eine Benchmark-Studie aus dem Jahr 2024 über DICOM-Medizinbilddokumente ergab, dass selbst bei score_threshold=0.7 – einem relativ aggressiven Präzisionsfilter – 38 von 39 DICOM-Bildern immer noch falsch positive Entitäten hatten. Schwellenwerte reduzieren, beseitigen jedoch nicht das Problem der falsch positiven Ergebnisse bei reiner ML-Erkennung.

Warum reine ML bei domänenspezifischen Dokumenten versagt

Das Muster der falsch positiven Ergebnisse bei Presidio spiegelt eine grundlegende Einschränkung allgemeiner NLP-Modelle in domänenspezifischen Kontexten wider:

Rechtsdokumente enthalten spezialisierte Eigennamen – Fallnamen, Gesetzesnamen, Ausstellungsbezeichnungen – die oberflächliche Muster mit Personennamen teilen. Ein auf allgemeinem Text trainiertes Modell lernt, dass großgeschriebene Eigennamen oft Personennamen sind. Ein Rechtsdokument enthält Hunderte von großgeschriebenen Eigennamen, die keine Personennamen sind.

Gesundheitsdokumente enthalten Medikamentennamen, Gerätenamen und Verfahrenscodes, die Buchstabensequenzen enthalten, die Namenabkürzungen ähneln. Klinischer Text enthält auch Abkürzungen ("Pt." für Patient, "Dr." für Doktor), die unvorhersehbar mit der Namensdetektion interagieren.

Finanzdokumente enthalten Produktnamen, Entitätsnamen und Identifikationscodes, die Muster mit persönlichen Identifikatoren teilen.

Die domänenspezifische Feinabstimmung adressiert diese Muster, erfordert jedoch erhebliche Investitionen in die Feinabstimmung von Datensätzen und kontinuierliche Wartung, während sich die Dokumenttypen weiterentwickeln.

Die hybride Architektur-Lösung

Das Problem der falsch positiven Ergebnisse ist strukturell durch hybride Erkennung lösbar, die strukturierte Daten (wo Regex 100% Präzision bietet) von kontextuellen Daten (wo ML Mustererkennung mit kalibrierter Zuversicht bietet) trennt.

Regex für strukturierte Identifikatoren: SSNs, Telefonnummern, E-Mail-Adressen, Kreditkartennummern, nationale ID-Formate, Bankkontonummern. Diese Formate sind deterministisch – eine Zeichenfolge entspricht entweder dem Muster und besteht die Prüfziffervalidierung oder nicht. Null falsch positive Ergebnisse für legitime Implementierungen.

NLP für kontextuelle Entitäten: Personennamen, Organisationsnamen, Standorte in unstrukturiertem Text. NLP-Modelle bieten Rückruf für Entitäten, die keine strukturellen Muster aufweisen. Vertrauensbewertung und Kontextwortanforderungen reduzieren falsch positive Ergebnisse.

Schwellenkonfiguration pro Entitätstyp: Das Setzen eines 90%-Vertrauensschwellenwerts für Personennamen, während für SSNs regex-sicher (effektiv 100%) verwendet wird, ermöglicht die Kalibrierung auf domänenspezifische Toleranzen für falsch positive Ergebnisse. Rechtsteams, die Überredaktion nicht tolerieren können, setzen höhere Schwellenwerte; klinische Forschungsteams, die den Rückruf der De-Identifizierung maximieren, setzen niedrigere.

Das Ergebnis: dramatisch niedrigere falsch positive Raten als die Standardwerte von Presidio, während der Rückruf aufrechterhalten wird, den reine Mustererkennung nicht erreichen kann. Für rechtliche und gesundheitliche Organisationen, die automatisierte Retusche-Tools evaluieren, ist der Präzisions-Rückruf-Handel handhabbar – aber nur mit einem Tool, das es als konfigurierbaren Parameter und nicht als festes Systemverhalten offenlegt.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.