By · Last updated 2026-02-24

Zurück zum BlogGesundheitswesen

PHI-Erkennungsgenauigkeit: John Snow Labs 96 % vs.

Nicht alle De-Identifikationswerkzeuge sind gleich. Die ECIR 2025-Benchmarks zeigen F1-Werte von 79 % bis 96 %.

February 24, 20267 min Lesezeit
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Aktualisiert für 2026

Nicht alle De-Identifikationstools sind gleich

Genauigkeit ist der einzige Maßstab, der bei der PHI-De-Identifikation zählt. Eine Lücke von 4 % klingt klein. Bei einer Million Datensätzen bedeutet das 40.000 betroffene Patienten.

ECIR-2025-Benchmarks zeigen große Genauigkeitsunterschiede zwischen führenden Tools. Diese Ergebnisse sollten jede Kaufentscheidung im Gesundheitsbereich beeinflussen.

ECIR-2025-Benchmark-Ergebnisse

<!-- VERIFIED-EXTERNAL: John Snow Labs ECIR 2025 Text2Story Workshop paper -->
ToolF1-ScorePräzisionRecall
John Snow Labs96 %95 %97 %
Azure AI91 %90 %92 %
AWS Comprehend Medical83 %81 %85 %
GPT-4o79 %82 %76 %

Der F1-Score vereint zwei Werte. Präzision: Wie viele markierten Einträge waren echtes PHI? Recall: Wie viele echten PHI-Einträge wurden gefunden?

  • Niedrige Präzision bedeutet Über-Schwärzung und Kontextverlust.
  • Niedriger Recall bedeutet übersehenes PHI — und damit eine Datenpanne.

Warum die Lücke existiert

Trainingsdaten sind entscheidend

John Snow Labs trainiert auf klinischen Notizen. Diese sind unordentlich und voller Abkürzungen. GPT-4o trainiert auf einer breiten Mischung von Texten. Es wurde nicht für klinische Daten entwickelt.

ToolTrainingsfokus
John Snow LabsGesundheitsspezifisch, klinische Notizen
Azure AIAllgemein medizinisch + klinisch
AWS Comprehend MedicalAllgemein medizinische Entitäten
GPT-4oBreites Training, nicht gesundheitsspezifisch

Entitätsabdeckung unterscheidet sich

Nicht jedes Tool erkennt dieselben PHI-Typen.

EntitätJohn SnowAzureAWSGPT-4o
PatientennamenJaJaJaJa
PatientenaktennnummernJaJaEingeschränktEingeschränkt
MedikamentendosierungenJaJaJaTeilweise
Prozedur-CodesJaJaEingeschränktNein
Klinische AbkürzungenJaTeilweiseNeinTeilweise
Namen von FamilienmitgliedernJaJaTeilweiseTeilweise

Kontext ist schwer zu verstehen

Nehmen Sie diese klinische Notiz:

„Patient berichtet, Smiths Medikament zu nehmen. Dr. Johnson empfiehlt, die Dosis zu erhöhen."

Ein gutes PHI-Tool muss drei Dinge tun:

  1. „Smith" als Markenname lesen, nicht als Patientenname.
  2. „Dr. Johnson" als Anbietername zur Schwärzung markieren.
  3. „Patient" als Rollenbezeichnung erkennen, nicht als Namen.

GPT-4o verfehlt diese Fälle. Das drückt den Recall auf 76 %.

Die Kosten niedriger Genauigkeit

Eine Verbesserung von 79 % auf 96 % reduziert die Exposition um 170.000 Datensätze pro Million verarbeiteter Datensätze.

<!-- VERIFIED: arithmetic derived from ECIR 2025 benchmark figures -->
GenauigkeitDatensätzePHI-Exposition
96 %1.000.00040.000
91 %1.000.00090.000
83 %1.000.000170.000
79 %1.000.000210.000

HIPAA-Strafen skalieren mit der Exposition

<!-- VERIFIED-EXTERNAL: HIPAA Journal penalty tiers / 45 CFR 160.404 -->
StufeUrsacheStrafe pro Verstoß
1Unwissentlich100–50.000 $
2Angemessener Grund1.000–50.000 $
3Vorsätzliche Fahrlässigkeit, korrigiert10.000–50.000 $
4Vorsätzliche Fahrlässigkeit, unkorrigiert50.000 $+

Ein Tool mit 79 % zu wählen, obwohl Tools mit 96 % verfügbar sind, kann vom HHS als vorsätzliche Fahrlässigkeit eingestuft werden. Die Lücke ist bekannt. Ein besseres Tool ist auf dem Markt.

Wie eine hybride Pipeline die Genauigkeit erhöht

Keine einzelne Methode findet alle PHI-Typen. Eine hybride Pipeline stapelt Methoden. Jede füllt die Lücken der anderen.

Eingabetext
    ↓
[Regex-Muster] — Strukturierte Daten: SSN, MRN, Datumsangaben
    ↓
[spaCy NER] — Namen, Orte, Organisationen
    ↓
[Transformer-Modelle] — Kontextabhängige Entitäten
    ↓
[Medizinische Wörterbücher] — Gesundheitsspezifische Begriffe
    ↓
Zusammengeführte Ergebnisse (höchstes Vertrauen gewinnt)
MethodeStärkenSchwächen
RegexIdeal für strukturierte DatenKein Kontextverständnis
spaCySchnell, häufige EntitätenBegrenztes medizinisches Vokabular
TransformerKontextbewusst, hoher RecallLangsamer
WörterbücherVollständige medizinische BegriffeStatisch, benötigt Updates

Jede Methode erkennt, was die anderen verfehlen. Mehr auf der Security-Compliance-Seite und in den rechtlichen Konformitätsdokumenten.

Fragen, die Sie jedem Anbieter stellen sollten

Bevor Sie unterschreiben, fragen Sie fünf Dinge:

  1. Welcher F1-Score bei klinischen Notizen? Verlangen Sie Drittanbieter-Daten. Weisen Sie vage Aussagen zurück.
  2. Welche Entitätstypen? Alle 18 HIPAA Safe Harbor-Identifikatoren müssen abgedeckt sein.
  3. Wie werden Abkürzungen behandelt? „Pt", „Dx" und „Hx" brauchen korrekte Auflösung.
  4. Wird PHI von Familienmitgliedern erkannt? „Mutter hat Diabetes" ist PHI. Viele Tools übersehen es.
  5. Werden alle Notizformate unterstützt? Fortschrittsnotizen, Entlassungsberichte und Röntgenberichte sind sehr unterschiedlich.

Warnsignale:

  • Keine konkreten Genauigkeitszahlen
  • Tests nur an sauberen, strukturierten Daten
  • Kein gesundheitsspezifisches Trainingsdaten
  • Wenige Entitätstypen
  • Keine HIPAA Safe Harbor-Validierung

Tools selbst testen

Führen Sie Ihren eigenen Test in vier Schritten durch.

Schritt 1 — Datensatz aufbauen. Verwenden Sie de-identifizierte Notizen aus vielen Fachbereichen. Decken Sie alle 18 HIPAA-Typen ab, plus Randfälle wie Abkürzungen und Familiennamen.

Schritt 2 — Gold-Standard festlegen. Experten annotieren jede PHI-Instanz mit Typ und genauem Span.

Schritt 3 — Jedes Tool ausführen. Vergleichen Sie die Ausgabe mit dem Gold-Standard. Berechnen Sie Präzision, Recall und F1.

Schritt 4 — Fehler aufschlüsseln. Gruppieren Sie Fehlklassifikationen nach Typ, Kontext und Format. So sehen Sie, wo jedes Tool versagt.

Fazit

Die ECIR-2025-Daten sind eindeutig. Eine Lücke von 17 Punkten — 96 % gegenüber 79 % — bedeutet 170.000 zusätzlich exponierte Datensätze pro Million. Die Tool-Auswahl ist die größte Risikovariable bei großem Maßstab.

Bei der Auswahl eines PHI-Erkennungstools:

  • Fordern Sie spezifische Genauigkeitsdaten für klinischen Text
  • Bestätigen Sie vollständige HIPAA Safe Harbor-Abdeckung
  • Testen Sie mit Ihren eigenen Dokumentformaten
  • Bevorzugen Sie hybride Pipelines gegenüber Einzelmethoden-Tools

Mehr zur Funktionsweise der Tokenisierung in den Token-System-Docs. Häufige Fragen im FAQ.


anonym.legal ersetzt PHI durch Token, bevor Dokumente ein KI-Tool erreichen. Namen, Daten und Nummern werden auf Ihrer Seite ausgetauscht. Ergebnisse kommen mit den echten Details zurück — nur für Sie. Erkunden Sie die Preise.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.