Problemet med 50% feilrate
En undersøkelse fra 2025 av LLM-baserte de-identifikasjonsverktøy (arXiv:2509.14464) fant at generelle LLM-verktøy går glipp av mer enn 50% av klinisk PHI i flerspråklige dokumenter. Dette tallet reflekterer en grunnleggende arkitektonisk misforhold: LLM-er er designet for språkforståelse og generering, ikke for den strukturerte, høy-recall identifikasjonsoppgaven som HIPAA-de-identifikasjon krever.
HIPAA Privacy Rule's Safe Harbor-metode krever fjerning av 18 spesifikke identifikatorkategorier: navn, geografiske data, datoer, telefonnumre, faksnumre, e-postadresser, SSN-er, medisinske journalnumre, helseplanens begunstigede numre, kontonumre, sertifikat/lisensnumre, VIN-er, enhetsidentifikatorer, nett-URL-er, IP-adresser, biometriske identifikatorer, helfigur fotografier, og ethvert annet unikt identifiserende nummer eller kode. Hver av disse kategoriene har strukturerte formater som krever spesifikk deteksjonslogikk.
Kliniske notater er der vanskeligheten konsentreres. Tenk på et typisk fragment av en klinisk note: "Pt. John D., DOB 4/12/67, MRN 1234567, presentert til ED den 03/15/24 med brystsmerter. Tidligere Hx: HTN, DM. Dr. Smith bestilte EKG." Denne setningen inneholder et navn, fødselsdato, MRN, innleggsdato, og behandlende lege — fem HIPAA-identifikatorer, noen i forkortet form, innebygd i klinisk sjargong.
Hva LLM-er går glipp av og hvorfor
Generelle LLM-er feiler på klinisk PHI i forutsigbare mønstre.
Forkortede identifikatorer: Kliniske notater bruker standard forkortelser (DOB for fødselsdato, MRN for medisinsk journalnummer, Pt. for pasient) som kontekstuavhengig NER kanskje ikke gjenkjenner som PII-markører. En LLM som leser notatet ovenfor for generell forståelse forstår den kliniske betydningen; en LLM som har som oppgave å hente ut PHI kan gå glipp av "Pt. John D." som et delvis navn mønster.
Kontekstavhengige datoer: Datoer i kliniske notater har spesifikk HIPAA-betydning. "Alder 67" er en delvis de-identifikator som må noteres. "DOB 4/12/67" er PHI. "03/15/24" som innleggsdato er PHI. Disse krever kontekstavhengig datoekstraksjon, ikke bare datamønster matching.
Regionale identifikatorformater: Forskning fra Cyberhaven (Q4 2025) fant at 34,8% av alle ChatGPT-inndata inneholder sensitive data inkludert flerspråklig PII. I helsesammenhenger inkluderer dette ikke-US medisinske journalformater, internasjonale dato konvensjoner, og landspesifikke helseidentifikatorformater som US-fokuserte systemer går glipp av.
Egendefinerte institusjonelle identifikatorer: Helsevesen bruker proprietære MRN-formater, ansatt-ID-er, og anleggs koder som ikke er en del av standard NER-treningsdata. Et system uten støtte for egendefinerte enhetstyper kan ikke oppdage disse.
Problemet med samsvar for forskningsdatasett
Et sykehus som bygger et de-identifisert forskningsdatasett fra 500 000 kliniske notater står overfor en sammensatt risiko. HIPAA krever at de-identifiserte forskningsdatasett møter "svært liten risiko" standarden under Safe Harbor-metoden eller den statistiske tilnærmingen under Expert Determination. Et system som går glipp av 50% av PHI produserer et datasett som ikke oppfyller denne standarden — og eksponerer forskningsinstitusjonen for OCR-håndheving og IRB-samsvarsfeil.
De kliniske notatene i et forskningsdatasett er ikke uniforme. De spenner over forskjellige avdelinger (kardiologi, onkologi, psykiatri), forskjellige dokumentasjonsstiler, forskjellige tidsperioder, og — i flerspråklige helsesystemer — forskjellige språk. Et de-identifikasjonssystem som fungerer tilstrekkelig på strukturerte faktureringsdata kan feile på ustrukturerte psykiatriske fremdriftsnotater der PHI vises i narrativ kontekst i stedet for merket felt.
Kravet om hybriddeteksjon
2025-forskningsundersøkelsen identifiserte det konsistente mønsteret: systemer med høyest PHI recall kombinerer strukturert identifikatordeteksjon (regex for SSN-er, MRN-er, telefonnumre) med kontekstuell NER (transformer-baserte modeller for navn, datoer i narrativ kontekst) og egendefinert enhetsstøtte (institusjonsspesifikke identifikatorer).
Rene ML-tilnærminger oppnår høy recall på vanlige identifikatorer i godt formaterte tekster, men forringes på forkortelser, sjeldne identifikatortyper, og ikke-engelske tekster. Rene regex-tilnærminger oppnår høy recall på strukturerte identifikatorer, men går glipp av kontekstuell PHI (et leges navn nevnt i en klinisk narrativ uten tittelprefiks).
Den hybride tre-nivå arkitekturen — regex for strukturerte identifikatorer, NLP for kontekstuell PHI, transformer-modeller for tverrspråklige og forkortede former — er mønsteret identifisert av undersøkelsen som oppnår feilrater under 5% egnet for HIPAA Safe Harbor-samsvar.
Kilder: