Problemet med 50% missrate
En undersökning från 2025 av LLM-baserade avidentifieringsverktyg (arXiv:2509.14464) visade att allmänna LLM-verktyg missar mer än 50% av klinisk PHI i flerspråkiga dokument. Denna siffra återspeglar en grundläggande arkitektonisk missmatch: LLM:er är designade för språkförståelse och generation, inte för den strukturerade, högåterkallande identifieringsuppgift som HIPAA-avidentifiering kräver.
HIPAA:s sekretessregelns Safe Harbor-metod kräver borttagning av 18 specifika identifieringskategorier: namn, geografiska data, datum, telefonnummer, faxnummer, e-postadresser, personnummer, medicinska journalnummer, hälsoförsäkringsnummer, kontonummer, certifikat/licensnummer, VIN-nummer, enhetsidentifierare, webbadresser, IP-adresser, biometriska identifierare, helansiktsfotografier och andra unika identifierande nummer eller koder. Varje av dessa kategorier har strukturerade format som kräver specifik detektionslogik.
Kliniska anteckningar är där svårigheterna koncentreras. Tänk på ett typiskt fragment av en klinisk anteckning: "Pt. John D., Födelsedatum 4/12/67, MRN 1234567, presenterade sig på ED den 03/15/24 med bröstsmärtor. Tidigare Hx: HTN, DM. Dr. Smith beställde EKG." Denna enda mening innehåller ett namn, födelsedatum, MRN, inläggningsdatum och behandlande läkare — fem HIPAA-identifikatorer, några i förkortad form, inbäddade i klinisk förkortning.
Vad LLM:er missar och varför
Allmänna LLM:er misslyckas med klinisk PHI på förutsägbara mönster.
Förkortade identifierare: Kliniska anteckningar använder standardförkortningar (Födelsedatum för födelsedatum, MRN för medicinskt journalnummer, Pt. för patient) som kontextfria NER kanske inte känner igen som PII-markörer. En LLM som läser anteckningen ovan för allmän förståelse förstår den kliniska betydelsen; en LLM som har till uppgift att extrahera PHI kan missa "Pt. John D." som ett delvis namn mönster.
Kontextberoende datum: Datum i kliniska anteckningar har specifik HIPAA-betydelse. "Ålder 67" är en delvis avidentifierare som måste noteras. "Födelsedatum 4/12/67" är PHI. "03/15/24" som inläggningsdatum är PHI. Dessa kräver kontextmedveten datumextraktion, inte bara datummönstermatchning.
Regionala identifierarformat: Forskning av Cyberhaven (Q4 2025) visade att 34,8% av alla ChatGPT-inmatningar innehåller känslig data inklusive flerspråkig PII. I vårdkontexter inkluderar detta icke-US medicinska journalformat, internationella datumkonventioner och landspecifika hälsoidentifierarformat som US-fokuserade system missar.
Anpassade institutionella identifierare: Hälsosystem använder proprietära MRN-format, anställdas ID:n och anläggningskoder som inte ingår i standard NER-träningsdata. Ett system utan stöd för anpassade entitetstyper kan inte upptäcka dessa.
Problemet med forskningsdatasetens efterlevnad
Ett sjukhussystem som bygger ett avidentifierat forskningsdataset från 500 000 kliniska anteckningar står inför en sammansatt risk. HIPAA kräver att avidentifierade forskningsdataset uppfyller "mycket liten risk"-standarden under Safe Harbor-metoden eller den statistiska metoden under Expert Determination. Ett system som missar 50% av PHI producerar ett dataset som misslyckas med denna standard — vilket utsätter forskningsinstitutionen för OCR-verkställighet och IRB-efterlevnadsfel.
De kliniska anteckningarna i ett forskningsdataset är inte enhetliga. De spänner över olika avdelningar (kardiologi, onkologi, psykiatri), olika dokumentationsstilar, olika tidsperioder och — i flerspråkiga hälsosystem — olika språk. Ett avidentifieringssystem som presterar tillfredsställande på strukturerad faktureringsdata kan misslyckas på ostrukturerade psykiatriska framsteganteckningar där PHI förekommer i narrativ kontext snarare än märkta fält.
Kravet på hybriddetektion
2025 års forskningsundersökning identifierade det konsekventa mönstret: system med den högsta PHI-återkallelsen kombinerar strukturerad identifierardetektion (regex för personnummer, MRN, telefonnummer) med kontextuell NER (transformer-baserade modeller för namn, datum i narrativ kontext) och anpassat entitetsstöd (institutionsspecifika identifierare).
Ren ML-ansatser uppnår hög återkallelse på vanliga identifierare i välformaterad text men försämras på förkortningar, sällsynta identifierartyper och icke-engelska texter. Ren regex-ansatser uppnår hög återkallelse på strukturerade identifierare men missar kontextuell PHI (ett läkares namn nämnt i en klinisk berättelse utan titelprefix).
Den hybrida tre-nivåarkitekturen — regex för strukturerade identifierare, NLP för kontextuell PHI, transformer-modeller för tvärspråkiga och förkortade former — är det mönster som identifierades av undersökningen som uppnår missrate under 5% som är lämplig för HIPAA Safe Harbor-efterlevnad.
Källor: