Problemet med 50% Overset Rate
En undersøgelse fra 2025 af LLM-baserede de-identifikation værktøjer (arXiv:2509.14464) fandt, at generelle LLM-værktøjer overser mere end 50% af klinisk PHI i flersprogede dokumenter. Dette tal afspejler en grundlæggende arkitektonisk mismatch: LLM'er er designet til sprogforståelse og generation, ikke til den strukturerede, høj-recall identifikationsopgave, som HIPAA de-identifikation kræver.
HIPAA's privatlivsregel Safe Harbor-metoden kræver fjernelse af 18 specifikke identifikator kategorier: navne, geografiske data, datoer, telefonnumre, faxnumre, e-mailadresser, CPR-numre, medicinske journalnumre, sundhedsplan begunstigede numre, kontonumre, certifikat/licensnumre, VIN'er, enhedsidentifikatorer, web-URL'er, IP-adresser, biometriske identifikatorer, fuld ansigtsportrætter og ethvert andet unikt identificerende nummer eller kode. Hver af disse kategorier har strukturerede formater, der kræver specifik detektionslogik.
Kliniske noter er, hvor vanskelighederne koncentreres. Overvej et typisk fragment af en klinisk note: "Pt. John D., FØD 4/12/67, MRN 1234567, præsenteret for ED den 03/15/24 med brystsmerter. Tidligere Hx: HTN, DM. Dr. Smith bestilte EKG." Denne sætning indeholder et navn, fødselsdato, MRN, indlæggelsesdato og behandlende læge — fem HIPAA-identifikatorer, nogle i forkortet form, indlejret i klinisk shorthand.
Hvad LLM'er Overser og Hvorfor
Generelle LLM'er fejler på klinisk PHI i forudsigelige mønstre.
Forkortede identifikatorer: Kliniske noter bruger standardforkortelser (FØD for fødselsdato, MRN for medicinsk journalnummer, Pt. for patient), som kontekstfri NER muligvis ikke genkender som PII-markører. En LLM, der læser noten ovenfor for generel forståelse, forstår den kliniske betydning; en LLM, der har til opgave at udtrække PHI, kan overse "Pt. John D." som et delvist navn mønster.
Kontekstafhængige datoer: Datoer i kliniske noter har specifik HIPAA-betydning. "Alder 67" er en delvis de-identifikator, der skal noteres. "FØD 4/12/67" er PHI. "03/15/24" som indlæggelsesdato er PHI. Disse kræver kontekstbevidst datoudtrækning, ikke blot dato mønster matching.
Regionale identifikatorformater: Forskning fra Cyberhaven (Q4 2025) fandt, at 34,8% af alle ChatGPT-input indeholder følsomme data, herunder flersproget PII. I sundhedsmæssige sammenhænge inkluderer dette ikke-US medicinske journalformater, internationale dato konventioner og landespecifikke sundhedsidentifikatorformater, som US-fokuserede systemer overser.
Tilpassede institutionelle identifikatorer: Sundhedssystemer bruger proprietære MRN-formater, medarbejder-ID'er og facilitet koder, der ikke er en del af standard NER træningsdata. Et system uden tilpasset enhedstype support kan ikke opdage disse.
Problemet med Forskning Dataset Overholdelse
Et hospitalsystem, der bygger et de-identificeret forskningsdataset fra 500.000 kliniske noter, står over for en sammensat risiko. HIPAA kræver, at de-identificerede forskningsdatasets opfylder "meget lille risiko" standarden under Safe Harbor-metoden eller den statistiske tilgang under Ekspertbestemmelse. Et system, der overser 50% af PHI, producerer et dataset, der fejler denne standard — hvilket udsætter forskningsinstitutionen for OCR håndhævelse og IRB overholdelsesfejl.
De kliniske noter i et forskningsdataset er ikke ensartede. De spænder over forskellige afdelinger (kardiologi, onkologi, psykiatri), forskellige dokumentationsstile, forskellige tidsperioder, og — i flersprogede sundhedssystemer — forskellige sprog. Et de-identifikationssystem, der fungerer tilstrækkeligt på strukturerede faktureringsdata, kan fejle på ustrukturerede psykiatriske fremdriftsnotater, hvor PHI vises i narrativ kontekst snarere end i mærkede felter.
Kravet om Hybrid Detektion
2025-forskningsundersøgelsen identificerede det konsistente mønster: systemer med den højeste PHI recall kombinerer struktureret identifikator detektion (regex for CPR-numre, MRN'er, telefonnumre) med kontekstuel NER (transformer-baserede modeller for navne, datoer i narrativ kontekst) og tilpasset enhed support (institutionsspecifikke identifikatorer).
Ren ML-tilgange opnår høj recall på almindelige identifikatorer i velformateret tekst, men forringes på forkortelser, sjældne identifikatortyper og ikke-engelsk tekst. Rene regex-tilgange opnår høj recall på strukturerede identifikatorer, men overser kontekstuel PHI (et lægens navn nævnt i en klinisk narrativ uden en titel præfiks).
Den hybride tre-niveau arkitektur — regex for strukturerede identifikatorer, NLP for kontekstuel PHI, transformer modeller for tvær-sproglige og forkortede former — er det mønster, der er identificeret af undersøgelsen som at opnå under 5% overset rate, der er egnet til HIPAA Safe Harbor overholdelse.
Kilder: