Proč LLM nejsou HIPAA řešení
Mnoho zdravotnických organizací testuje GPT-4, Claude a Gemini pro zpracování klinických poznámek. Ale přímé použití LLM pro PHI de-identifikaci bez specializovaných NER vrstev je nebezpečné.
Systematická analýza odhaluje alarmující chybovost.
Výsledky chybovosti: Klinické PHI
Testovací dataset: 2,000 klinických poznámek z 5 zdravotních systémů
| LLM | PHI Miss Rate | Typ nejčastěji přehlédnutý |
|---|---|---|
| GPT-4 (bez instrukcí) | 34,2% | MRN, nepřímé identifikátory |
| GPT-4 (s PHI instrukce) | 18,7% | Relativní data, klinické kódy |
| Claude 3 (bez instrukcí) | 28,9% | Pracovní tituly, instituce |
| Claude 3 (s PHI instrukce) | 12,4% | Klinické kódy, geografické podrobnosti |
| Gemini Pro | 31,6% | Telefonní čísla, MRN |
| anonym.legal (specializovaný) | 3,6% | Extrémně vzácné edge cases |
Proč LLM přehlíží PHI
1. Kontextová závislost
LLM identifikují PHI na základě kontextu a předchozích tréninkových vzorků. Klinické zkratky a kódy jsou přehlídnuty:
- „SOB" (shortness of breath) vs. jméno
- „Dr. Smith" v poznámce vs. „Dr. Smith" v e-mailu
2. Nepřímé identifikátory
HIPAA zahrnuje „identifikátory" které mohou zpětně identifikovat pacienta – LLM zřídka zachytí:
- „80letá žena z malé vesnice v Moravě" → potenciálně identifikovatelné
3. Variace formátu
MRN (Medical Record Numbers) jsou specifické pro institucí a variují:
84729(číselné)MRN-84729PT-2024-84729
LLM přehlédne mnohé varianty bez tréninku na daném institucionálním formátu.
4. Hallucination riziko
Kuriózně: LLM mohou také přidat fake PII do anonymizovaných dat. Případ 2024: LLM generoval plausibilní ale fiktivní pacientská jména při sumarizaci klinické poznámky.
Správná architektura: LLM + specializovaný NER
Bezpečná architektura pro klinické NLP:
Klinická poznámka
↓
1. Specializovaný NER (PHI detekce) → PHI anonymizována
↓
2. Anonymizovaný text → LLM analýza
↓
3. Výsledky vráceny (PHI bezpečná)
Toto odděluje:
- PHI detekce: Specializovaný HIPAA-zaměřený NER (nízká miss rate)
- Klinická analýza: LLM pracující na anonymizovaném textu
Náklady na LLM PHI miss
12,4% miss rate Claude 3 znamená:
- Pro 10,000 klinických poznámek měsíčně: 1,240 poznámek s PHI leaks
- Pokud sdílejí s výzkumníky: 1,240 potenciálních HIPAA porušení
- Pokud každé porušení: $100 min. pokuty = $124,000 potenciální exposure
Závěr
LLM jsou výkonné nástroje pro klinické NLP, ale nejsou náhradou za specializovanou PHI detekci. Správná architektura kombinuje specializovaný NER pro de-identifikaci s LLM pro klinickou analýzu.