Das Problem der 50% Fehlerrate
Eine Umfrage aus dem Jahr 2025 zu LLM-basierten De-Identifizierungstools (arXiv:2509.14464) ergab, dass allgemeine LLM-Tools mehr als 50% der klinischen PHI in mehrsprachigen Dokumenten übersehen. Diese Zahl spiegelt ein grundlegendes architektonisches Missverhältnis wider: LLMs sind für das Verständnis und die Generierung von Sprache konzipiert, nicht für die strukturierte, hochpräzise Identifikationsaufgabe, die die HIPAA-De-Identifizierung erfordert.
Die Safe Harbor-Methode der HIPAA-Datenschutzregel erfordert die Entfernung von 18 spezifischen Identifikator-Kategorien: Namen, geografische Daten, Daten, Telefonnummern, Faxnummern, E-Mail-Adressen, SSNs, medizinische Aktennummern, Nummern von Gesundheitsplanbegünstigten, Kontonummern, Zertifikats-/Lizenznummern, VINs, Geräteidentifikatoren, Web-URLs, IP-Adressen, biometrische Identifikatoren, Ganzkopf-Fotografien und jede andere einzigartige Identifikationsnummer oder -code. Jede dieser Kategorien hat strukturierte Formate, die spezifische Erkennungslogik erfordern.
Klinische Notizen sind der Bereich, in dem die Schwierigkeiten konzentriert sind. Betrachten Sie einen typischen Fragment einer klinischen Notiz: "Pt. John D., DOB 4/12/67, MRN 1234567, wurde am 03/15/24 mit Brustschmerzen in die Notaufnahme gebracht. Vorherige Anamnese: HTN, DM. Dr. Smith ordnete ein EKG an." Dieser einzelne Satz enthält einen Namen, ein Geburtsdatum, eine MRN, ein Aufnahmedatum und den behandelnden Arzt — fünf HIPAA-Identifikatoren, einige in abgekürzter Form, eingebettet in klinische Kurzschrift.
Was LLMs übersehen und warum
Allgemeine LLMs versagen bei klinischer PHI in vorhersehbaren Mustern.
Abgekürzte Identifikatoren: Klinische Notizen verwenden standardisierte Abkürzungen (DOB für Geburtsdatum, MRN für medizinische Aktennummer, Pt. für Patient), die von kontextfreien NER möglicherweise nicht als PII-Marker erkannt werden. Ein LLM, das die obige Notiz zum allgemeinen Verständnis liest, versteht die klinische Bedeutung; ein LLM, das mit der PHI-Extraktion beauftragt ist, könnte "Pt. John D." als teilweise Namensmuster übersehen.
Kontextabhängige Daten: Daten in klinischen Notizen haben spezifische HIPAA-Bedeutung. "Alter 67" ist ein teilweiser De-Identifikator, der beachtet werden muss. "DOB 4/12/67" ist PHI. "03/15/24" als Aufnahmedatum ist PHI. Diese erfordern eine kontextbewusste Datumsextraktion, nicht nur ein Datumsmuster-Matching.
Regionale Identifikatorformate: Forschungen von Cyberhaven (Q4 2025) ergaben, dass 34,8% aller ChatGPT-Eingaben sensible Daten, einschließlich mehrsprachiger PII, enthalten. In Gesundheitskontexten umfasst dies nicht-US-amerikanische medizinische Aktenformate, internationale Datumsformate und länderspezifische Gesundheitsidentifikatorformate, die von auf die USA fokussierten Systemen übersehen werden.
Benutzerdefinierte institutionelle Identifikatoren: Gesundheitssysteme verwenden proprietäre MRN-Formate, Mitarbeiter-IDs und Einrichtungscodes, die nicht Teil der Standard-NER-Trainingsdaten sind. Ein System ohne Unterstützung für benutzerdefinierte Entitätstypen kann diese nicht erkennen.
Das Problem der Einhaltung von Forschungsdatensätzen
Ein Krankenhaus, das einen de-identifizierten Forschungsdatensatz aus 500.000 klinischen Notizen erstellt, sieht sich einem kombinierten Risiko gegenüber. HIPAA verlangt, dass de-identifizierte Forschungsdatensätze den Standard "sehr kleines Risiko" gemäß der Safe Harbor-Methode oder dem statistischen Ansatz unter Expert Determination erfüllen. Ein System, das 50% der PHI übersehen hat, produziert einen Datensatz, der diesen Standard nicht erfüllt — was die Forschungseinrichtung der Durchsetzung durch die OCR und der Nichteinhaltung der IRB aussetzt.
Die klinischen Notizen in einem Forschungsdatensatz sind nicht einheitlich. Sie erstrecken sich über verschiedene Abteilungen (Kardiologie, Onkologie, Psychiatrie), verschiedene Dokumentationsstile, verschiedene Zeiträume und — in mehrsprachigen Gesundheitssystemen — verschiedene Sprachen. Ein De-Identifizierungssystem, das bei strukturierten Abrechnungsdaten angemessen funktioniert, kann bei unstrukturierten psychiatrischen Fortschrittsnotizen versagen, in denen PHI im narrativen Kontext und nicht in beschrifteten Feldern erscheint.
Die Anforderung an hybride Erkennung
Die Umfrage aus dem Jahr 2025 identifizierte das konsistente Muster: Systeme mit der höchsten PHI-Rückrufquote kombinieren die Erkennung strukturierter Identifikatoren (Regex für SSNs, MRNs, Telefonnummern) mit kontextuellem NER (transformerbasierte Modelle für Namen, Daten im narrativen Kontext) und benutzerdefinierter Entitätsunterstützung (einrichtungspezifische Identifikatoren).
Reine ML-Ansätze erreichen hohe Rückrufquoten bei gängigen Identifikatoren in gut formatiertem Text, verschlechtern sich jedoch bei Abkürzungen, seltenen Identifikatortypen und nicht-englischem Text. Reine Regex-Ansätze erreichen hohe Rückrufquoten bei strukturierten Identifikatoren, übersehen jedoch kontextuelle PHI (den Namen eines Arztes, der in einer klinischen Erzählung ohne Titelpräfix erwähnt wird).
Die hybride Drei-Ebenen-Architektur — Regex für strukturierte Identifikatoren, NLP für kontextuelle PHI, Transformermodelle für mehrsprachige und abgekürzte Formen — ist das Muster, das von der Umfrage als geeignet für HIPAA Safe Harbor-Konformität mit einer Fehlerrate von unter 5% identifiziert wurde.
Quellen: