Az LLM klinikai PHI-hiányosság
Egy 2025-ös, Annals of Internal Medicine-ben megjelent tanulmány a nagy nyelvi modellek orvosi dokumentum de-azonosítási teljesítményét értékelte.
A főbb megállapítások:
- Az LLM-ek a klinikai PHI >50%-át kihagyják a többnyelvű dokumentumokban
- A kihagyási arány alacsonyabb, ha az egész dokumentum angolul van (28-33%)
- A leggyakrabban kihagyott azonosítók: dátumok, helyspecifikus adatok, ritka azonosítók
Miért vallanak kudarcot az LLM-ek klinikai PHI-n
A hallucináció-kihagyás paradoxona
Az LLM-ek megbízhatóan detektálnak nyilvánvaló PHI-t (neveket, SSN-eket). Kihagyják:
- Dátumok és életkorok implicit kontextusban
- Klinikai rövidítések, amelyek dátumokat kódolnak (POD-4, DOA)
- Helyspecifikus adatok (kisváros neve + diagnózis = ritka beteg azonosítható)
- Tizenkét-jegyű MRN-ek, amelyek nem hasonlítanak szabályos PHI-ra
A HIPAA Safe Harbor 18 azonosítója
A HIPAA meghatároz 18 specifikus PHI-típust, amelyek mind el kell legyenek távolítva. Az általános célú LLM-ek a 18-ból kb. 10-12-re tanítottak. A maradék 6-8 kategória kihagyja a legtöbb általános célú LLM.
Az anonym.legal hibrid motor előnye
A kizárólag LLM-alapú megközelítéssel szemben az anonym.legal hibrid motort alkalmaz:
- NER: Kontextuális névfelismerés
- Regex + ellenőrző összeg: Strukturált azonosítók (MRN, SSN, IBAN)
- Dátum-felismerő: Implicit dátumkifejezések
- Szótáralapú: Klinikai rövidítések PHI-kontextusban
Következtetés
Az LLM-ek nem megfelelőek önmagukban a HIPAA Safe Harbor de-azonosításhoz. A hibrid motor – NLP + regex + szótár – az egyetlen megbízható megközelítés a szabályszerű klinikai de-azonosításhoz.