title: "Presidio False Positives: Was sie im Rechts- und Gesundheitswesen kosten" description: "Eine Studie aus 2024 fand, dass Presidio 13.536 Falschmeldungen bei Personennamen in 4.434 Dokumenten erzeugte — Pronomen, Schiffsnamen und Länder wurden als Personennamen eingestuft. Das sind die Kosten." category: technical publishedAt: 2026-03-23 tags:
- Presidio Falsch-Positiv-Rate
- PII-Erkennungsgenauigkeit
- automatisierte Schwärzungskosten
- rechtliche Dokumentenprüfung
- hybride PII-Erkennung readingTime: 8
Aktualisiert für 2026
Das 22,7%-Präzisionsproblem
Eine Studie aus 2024 testete Microsoft Presidio an Geschäftsdokumenten. Presidio ist ein Open-Source-PII-Tool. Rechtsabteilungen und Gesundheitseinrichtungen nutzen es weit verbreitet.
Die Studie maß, wie oft Presidio korrekt lag. Von allen markierten Elementen: Wie viele waren tatsächlich Personennamen?
Das Ergebnis: 22,7 %. Etwa 77 von 100 Markierungen waren falsch. Die Studie zählte 13.536 Fehlmarkierungen in 4.434 Beispieldateien.
Die Fehler waren nicht zufällig. Sie folgten klaren Mustern:
- Pronomen als Personen markiert ("I" am Satzanfang)
- Schiffsbezeichnungen als Personen markiert ("ASL Scorpio")
- Firmennamen als Personen markiert ("Deloitte & Touche")
- Ländernamen als Personen markiert ("Argentinien", "Singapur")
Das sind keine seltenen Ausnahmen. Sie treten auf, sobald ein allgemeines NLP-Modell auf Fachtexte trifft. Das Modell wurde nicht darauf trainiert, sie zu unterscheiden.
Was Fehlmarkierungen kosten
In der Rechts- und Gesundheitsarbeit braucht jede Markierung eine Antwort. Teams haben drei Optionen. Alle drei verursachen echte Kosten.
Option 1: Ein Mensch prüft jede Markierung. Anwalts- und Expertenzeit kostet 200 bis 800 US-Dollar pro Stunde. Bei 22,7 % Genauigkeit ist das Volumen enorm. Das ist in großem Maßstab nicht wirtschaftlich. Weitere Infos zur Kostenentwicklung finden Sie unter eDiscovery PII Automation and Legal Review Cost Reduction.
Option 2: Prüfung überspringen und dem Ergebnis vertrauen. Das ist ebenfalls riskant. Wenn 77 % der "geschwärzten" Elemente nicht sensitiv sind, entsteht rechtliches Risiko. Gerichte haben Anwälte für übermäßiges Schwärzen bestraft. Dokumentierte Fälle unter eDiscovery Over-Redaction Sanctions.
Option 3: Den Score-Schwellenwert erhöhen. Presidio erlaubt, einen score_threshold zu setzen, um schwache Markierungen auszufiltern. Eine DICOM-Studie aus 2024 testete dies bei 0,7 — eine relativ hohe Hürde. Das Ergebnis: 38 von 39 DICOM-Bildern hatten weiterhin Fehlmarkierungen. Schwellenwerte helfen. Sie beheben die Ursache nicht.
Warum allgemeine NLP-Modelle hier versagen
Die Lücke bei Presidio entsteht durch einen Mismatch zwischen Trainingsdaten und realer Nutzung.
Rechtsdokumente sind voll mit groß geschriebenen Fachbegriffen. Fallnamen, Gesetzestitel und Anlagebezeichnungen sehen für ein allgemeines Modell wie personenbezogene Daten aus. Es markiert sie. Die meisten sind keine personenbezogenen Daten.
Gesundheitsdaten bringen weitere Probleme. Medikamentennamen, Gerätecodes und klinische Abkürzungen führen die Erkennung in die Irre. „Pt." bedeutet Patient. „Dr." bedeutet Arzt. Diese Abkürzungen stören die Entitätserkennung auf schwer vorhersehbare Weise.
Finanzdateien enthalten Produktcodes, Entitätsstrings und Konto-IDs, die ähnliche Muster wie personenbezogene Daten aufweisen.
Ein Modell auf Fachdaten zu trainieren hilft. Es braucht jedoch Zeit und Aufwand, um es zu erstellen und aktuell zu halten.
Wie hybride Erkennung das Problem löst
Das Fehlmarkierungsproblem hat eine klare Lösung. Teilen Sie die Arbeit nach Datentyp auf.
Musterregeln für strukturierte Daten. Sozialversicherungsnummern, Telefonnummern, E-Mail-Adressen und ID-Formate folgen festen Regeln. Eine Zeichenkette passt entweder zum Muster und besteht den Prüfziffertest — oder nicht. Null Fehlmarkierungen bei gültigen Regelwerken.
Sprachmodelle für Freitext. Vor- und Nachnamen, Firmennamen und Orte in Fließtext haben keine feste Struktur. NLP findet sie, wo Regeln versagen. Konfidenzwerte und Kontextprüfungen senken die Fehlmarkierungsrate.
Typspezifische Score-Einstellungen für Feinsteuerung. Rechtsteams, die kein Risiko bei übermäßigem Schwärzen eingehen können, setzen hohe Schwellenwerte. Forschungsteams mit hohem Recall-Bedarf setzen niedrigere. Mehr zu Score-Tiers unter Binary PII Detection and Confidence Scoring for Compliance.
Das Ergebnis: weit weniger Fehler als mit Presidio-Standardwerten. Der Recall bleibt stark, wo Regeln allein zu viel verpassen würden.
Für Rechts- und Gesundheitsteams lautet die Kernfrage nicht, ob Fehlmarkierungen existieren. Sie existieren immer in NLP-Systemen. Die Frage ist, ob das Tool erlaubt, den Kompromiss einzustellen, zu messen und zu dokumentieren.