Die Kosten von Falschmeldungen bei PII-Erkennungstools
Aktualisiert für 2026
Die meisten PII-Tools werden an der Trefferquote gemessen. Die Trefferquote gibt an, wie viel echte PII das Tool findet. Aber Präzision ist genauso wichtig. Präzision misst, wie viele der Warnungen des Tools echte PII sind.
Niedrige Präzision ist teuer. Ein System mit 95 % Trefferquote und 22,7 % Präzision findet zwar die meisten PII. Doch für jede echte PII-Entität erzeugt es auch 3,4 Fehlwarnungen. In einem Datensatz mit 10.000 echten PII-Entitäten gibt das System rund 44.000 Warnungen aus. Davon sind etwa 34.000 falsch. Jede davon kostet Prüfzeit oder führt zu Über-Redaktion.
Das ist die Falschmeldungssteuer. Sie ist der Aufwand, den jedes Team bezahlt, wenn es ein hochsendes, niedrig präzises PII-System im Produktivbetrieb einsetzt. Die direkten Kosten sind Prüferzeit. Die indirekten Kosten sind schlimmer: Zu stark geschwärzte Dokumente verbergen nützliche Daten, verlangsamen die Arbeit und untergraben das Vertrauen in das Tool.
Was Presidio Issue #1071 zeigt
Microsoft Presidio GitHub-Diskussion #1071 (2024) dokumentiert ein konkretes Muster. Die TFN (Tax File Number)- und PCI-Recognizer nutzen Prüfsummenvalidierung. Zahlen, die die Prüfsumme bestehen, erhalten einen Score von 1,0 — maximale Konfidenz. PII-Kontext wird dabei nicht geprüft.
Der Kern des Problems: Die Kontextwortprüfung läuft nach dem Prüfsummenschritt, nicht davor. Eine Zahl, die die Prüfsumme besteht, erhält unabhängig vom Umgebungstext einen Höchstwert. In Finanztabellen, wissenschaftlichen Datensätzen oder Log-Dateien überschwemmt das die Ausgabe mit Fehlwarnungen. Eine Filterung über den Score-Schwellenwert hilft nicht. Die Scores sind bereits beim Maximum.
Ein zweites Muster zeigt sich in Presidio Issue #999. Die deutsche Wortsegmentierung versagt bei zusammengesetzten Nomen. Wörter wie Bundesbehörde können falsch segmentiert und als Personennamen erkannt werden. Das erzeugt Rauschen in jedem deutschsprachigen Dokument.
Das Problem mit 22,7 % Präzision
Alvaro et al. (2024) testeten Presidio mit Standardeinstellungen auf gemischtsprachigen Unternehmensdatensätzen. Sie fanden 22,7 % Präzision. In echten Dokumenten ist weniger als eine von vier Presidio-Warnungen eine echte PII-Entität. Das deckt sich mit Berichten aus der Praxis. Ein auf Trefferquote optimiertes Tool erzeugt im Produktivbetrieb zu viel Rauschen.
Eine DICOM-Studie aus 2024 zeigte, dass ein score_threshold von 0,7 in 38 von 39 medizinischen Bildern noch immer Fehlwarnungen hinterließ. Ein Schwellenwert, der Rauschen in einem Dokumenttyp beseitigt, erzeugt in einem anderen Typ verpasste Erkennungen.
Das ist kein Presidio-spezifisches Problem. Jeder feste Schwellenwert erzwingt einen Kompromiss. Ein hoher Schwellenwert senkt Fehlwarnungen, erhöht aber verpasste Erkennungen. Ein niedriger Schwellenwert erhöht die Trefferquote, bläht aber die Warteschlange auf.
Kontextbewusstes Scoring
Die Lösung ist kontextbewusstes Konfidenz-Scoring. Statt allein auf Basis des Musterfunds zu bewerten, erhöht das System die Konfidenz, wenn Kontextwörter in der Nähe erscheinen. Es senkt den Score, wenn Kontext fehlt.
Bei der TFN-Erkennung: Wörter wie "tax file number," "TFN" oder "Australian tax" in der Nähe einer Zahl erhöhen deren Score. Eine Zahl, die die Prüfsumme besteht, aber keine nahen Kontextwörter hat, erhält einen Score unterhalb der Prüfschwelle. Die Fehlwarnung wird unterdrückt.
Bei sprachübergreifendem Rauschen: Entitätstypen, die an bestimmte Länder gebunden sind, können auf Dokumente in der passenden Sprache beschränkt werden. Ein auf Englisch und australisches Englisch begrenzter TFN-Detektor beseitigt Rauschen. Ohne diese Einschränkung auf deutschen Texten ist das die Ursache des Problems.
Die dritte Schicht in einem Hybridsystem ist ein Transformermodell. Es liest das volle Kontextfenster rund um jeden Kandidaten. Es unterscheidet "John Smith, Patient ID 12345" von einem Produktcode, der zufällig einem Namensmuster entspricht. Kontext löst die Mehrdeutigkeit, die Regex und Prüfsummen nicht auflösen können.
Wie die dreistufige Erkennungs-Engine Präzision im Maßstab handhabt, zeigt unser Leitfaden. Der mehrsprachige PII-Erkennungs-Guide erklärt, wie sprachübergreifendes Rauschen die DSGVO-Compliance beeinflusst.
Praktische Schritte
Vor dem Einsatz eines PII-Tools sollte Präzision gemessen werden — nicht nur Trefferquote.
Führen Sie das Tool auf einem Dokumentensatz mit bekannter PII und bekannter Nicht-PII aus. Zählen Sie Warnungen in beiden Gruppen. Berechnen Sie true_positives / (true_positives + false_positives). Diese Zahl zeigt die Prüfbelastung, bevor Sie sich für einen Rollout entscheiden.
Für Teams, die bereits Presidio einsetzen, ist die Score-Verteilungsanalyse ein schneller Weg. Exportieren Sie eine Stichprobe von Erkennungen mit ihren Konfidenzwerten. Zählen Sie, wie viele unter 0,6, 0,7 und 0,8 liegen. Ein hoher Anteil von Hochscore-Warnungen in sauberem Text zeigt eine Kontext-Lücke, kein Schwellenwertproblem. Die Security-Compliance-Übersicht erklärt, wie dieser Befund in einer DSFA dokumentiert wird.
Quellen
- Microsoft Presidio GitHub-Diskussion #1071: systematische Fehlwarnungen.
- Microsoft Presidio GitHub Issue #999: Fehlwarnungen in deutschen Texten.
- Alvaro et al. (2024): Presidio-Präzision auf gemischtsprachigen Unternehmensdaten.
- DICOM-Score-Schwellenwert-Analyse — Microsoft Presidio Community.