Zurück zum BlogTechnisch

Die Steuer auf falsche Positive: Warum das...

Das Presidio GitHub-Problem #1071 dokumentiert systematische falsche Positive.

April 3, 20268 min Lesezeit
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Die unsichtbare Compliance-Steuer

PII-Detektionswerkzeuge werden typischerweise anhand des Rückrufs bewertet — welcher Prozentsatz der tatsächlichen PII wurde vom Werkzeug erfasst? Aber die Präzision — welcher Prozentsatz der Detektionen des Werkzeugs sind tatsächliche PII — bestimmt die Betriebskosten der Nutzung des Werkzeugs.

Ein System mit 95 % Rückruf und 22,7 % Präzision erfasst 95 % der echten PII, aber für jede echte PII-Einheit, die erkannt wird, werden 3,4 falsche Positive markiert. In einem Datensatz mit 10.000 echten PII-Einheiten generiert dieses System 10.000 / 0,227 ≈ 44.000 Gesamterkennungen, von denen 34.000 falsche Positive sind, die eine manuelle Überprüfung erfordern oder zu übermäßiger Schwärzung führen.

Das ist die "Steuer auf falsche Positive": der betriebliche Overhead, der jeder Organisation auferlegt wird, die versucht, ein PII-Detektionssystem mit hohem Rückruf und niedriger Präzision in Produktionsmaßstab zu verwenden. Die Steuer auf falsche Positive hat direkte Kosten — Zeit für manuelle Überprüfer — und indirekte Kosten: übermäßig geschwärzte Dokumente verschleiern relevante Informationen, verlangsamen Arbeitsabläufe und verringern das Vertrauen in das automatisierte System.

Was das Presidio-Problem #1071 dokumentiert

Die Microsoft Presidio GitHub-Diskussion #1071 (2024) dokumentiert ein spezifisches und systematisches Muster falscher Positiver. TFN (Tax File Number) und PCI-Erkenner mit Prüfziffernvalidierung erzeugen Vertrauenswerte von 1.0 — maximale Sicherheit — für Nicht-PII-Zahlen, die zufällig den Prüfziffernalgorithmus bestehen.

Das Designproblem: Die Überprüfung von Kontextwörtern (Überprüfung, dass Wörter wie "Steuernummer" oder "TFN" in der Nähe der erkannten Einheit erscheinen) wird nach dem Prüfziffernschritt und nicht davor angewendet. Zahlen, die die Prüfziffer bestehen, erhalten unabhängig vom Kontext einen Wert von 1.0. In Dokumenten, die numerische Daten enthalten — Finanzspreadsheets, wissenschaftliche Datensätze, Protokolldateien — führt dies zu einer Flut von falschen Positiven, die nicht nur durch einen Werteschwellenwert gefiltert werden können.

Ein separates Muster aus der Presidio-Community (GitHub-Problem #999): Die Segmentierung deutscher Wörter erzeugt falsche Positive für Namens- und Standortentitäten. Deutsche Zusammensetzungen wie "Bundesbehörde" oder gängige deutsche Begriffe können fälschlicherweise segmentiert und als persönliche Namen erkannt werden.

Das 22,7 % Präzisionsproblem

Alvaro et al. (2024) bewerteten die Standardeinstellungen von Presidio in gemischten Unternehmensdatensätzen und fanden 22,7 % Präzision — was bedeutet, dass in echten Unternehmensdokumenten weniger als 1 von 4 Presidio-Detektionen tatsächliche PII entspricht. Diese Zahl stimmt mit den Erfahrungen von Praktikern überein: Presidio, das auf Rückruf optimiert ist, produziert unbrauchbaren Lärm in der Produktion.

Eine Studie aus dem Jahr 2024, die DICOM-Medizinbildmetadaten untersuchte, ergab, dass selbst mit score_threshold=0.7, 38 von 39 DICOM-Bildern immer noch falsche positive Entitäten hatten. Der Schwellenwert, der falsche Positive für einen Dokumenttyp eliminiert, erzeugt falsche Negative für einen anderen.

Das Präzisionsproblem ist nicht einzigartig für Presidio — es spiegelt die inhärente Schwierigkeit wider, einen PII-Detektor mit hohem Rückruf zu entwickeln, der auch eine hohe Präzision über verschiedene Dokumenttypen, Sprachen und Datenformate hinweg erreicht. Die Herausforderung besteht darin, dass jeder feste Schwellenwert einen Kompromiss darstellt: Ein hoher Schwellenwert reduziert falsche Positive, erhöht jedoch falsche Negative; ein niedriger Schwellenwert erhöht den Rückruf, bläht jedoch die falschen Positiven auf.

Die kontextbewusste Lösung

Die Alternative zur Schwellenwertanpassung ist die kontextbewusste Vertrauensbewertung. Anstatt das Vertrauen ausschließlich basierend auf dem Musterabgleich der Entität zuzuweisen, erhöht die kontextbewusste Bewertung das Vertrauen, wenn Kontextwörter in der Nähe des Abgleichs erscheinen, und unterdrückt falsche Positive, wenn der Kontext fehlt.

Für die TFN-Erkennung: Ein Wert wird erhöht, wenn "Steuernummer", "TFN" oder "australische Steuer" innerhalb eines konfigurierbaren Fensters erscheint. Eine Zahl, die die TFN-Prüfziffer ohne nahegelegene Kontextwörter besteht, erhält einen reduzierten Vertrauenswert, der unter den Überprüfungsschwellenwert fällt.

Für sprachübergreifende falsche Positive: Entitätstypen, die spezifisch für bestimmte Sprachen sind (deutsche Steuer-ID, französische NIR, australische TFN), können auf Dokumente beschränkt werden, die als diese Sprache erkannt werden. Ein TFN-Detektor, der nur auf englische und australisch-englische Dokumente angewendet wird, eliminiert die systematischen falschen Positiven, die auftreten, wenn derselbe Detektor auf deutschen Dokumenten ausgeführt wird.

Die dritte Stufe der hybriden Erkennung — transformerbasierte kontextuelle Modelle — fügt eine weitere Schicht hinzu: Das Modell bewertet den gesamten umgebenden Kontext, um einen echten persönlichen Namen ("John Smith, Patienten-ID 12345") von einem falschen Positiven (einer Produktkennung, die zufällig mit einem Namensmuster übereinstimmt) zu unterscheiden.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.