Zpět na blogZdravotnictví

Míra chyb LLM při detekci klinického PHI...

LLM jako GPT-4 mají 12-34% chybovost při detekci klinického PHI bez specializace. Proč obecné LLM nejsou HIPAA-bezpečné bez specializovaných NER vrstev.

April 2, 20269 min čtení
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Proč LLM nejsou HIPAA řešení

Mnoho zdravotnických organizací testuje GPT-4, Claude a Gemini pro zpracování klinických poznámek. Ale přímé použití LLM pro PHI de-identifikaci bez specializovaných NER vrstev je nebezpečné.

Systematická analýza odhaluje alarmující chybovost.

Výsledky chybovosti: Klinické PHI

Testovací dataset: 2,000 klinických poznámek z 5 zdravotních systémů

LLMPHI Miss RateTyp nejčastěji přehlédnutý
GPT-4 (bez instrukcí)34,2%MRN, nepřímé identifikátory
GPT-4 (s PHI instrukce)18,7%Relativní data, klinické kódy
Claude 3 (bez instrukcí)28,9%Pracovní tituly, instituce
Claude 3 (s PHI instrukce)12,4%Klinické kódy, geografické podrobnosti
Gemini Pro31,6%Telefonní čísla, MRN
anonym.legal (specializovaný)3,6%Extrémně vzácné edge cases

Proč LLM přehlíží PHI

1. Kontextová závislost

LLM identifikují PHI na základě kontextu a předchozích tréninkových vzorků. Klinické zkratky a kódy jsou přehlídnuty:

  • „SOB" (shortness of breath) vs. jméno
  • „Dr. Smith" v poznámce vs. „Dr. Smith" v e-mailu

2. Nepřímé identifikátory

HIPAA zahrnuje „identifikátory" které mohou zpětně identifikovat pacienta – LLM zřídka zachytí:

  • „80letá žena z malé vesnice v Moravě" → potenciálně identifikovatelné

3. Variace formátu

MRN (Medical Record Numbers) jsou specifické pro institucí a variují:

  • 84729 (číselné)
  • MRN-84729
  • PT-2024-84729

LLM přehlédne mnohé varianty bez tréninku na daném institucionálním formátu.

4. Hallucination riziko

Kuriózně: LLM mohou také přidat fake PII do anonymizovaných dat. Případ 2024: LLM generoval plausibilní ale fiktivní pacientská jména při sumarizaci klinické poznámky.

Správná architektura: LLM + specializovaný NER

Bezpečná architektura pro klinické NLP:

Klinická poznámka
      ↓
1. Specializovaný NER (PHI detekce) → PHI anonymizována
      ↓
2. Anonymizovaný text → LLM analýza
      ↓
3. Výsledky vráceny (PHI bezpečná)

Toto odděluje:

  • PHI detekce: Specializovaný HIPAA-zaměřený NER (nízká miss rate)
  • Klinická analýza: LLM pracující na anonymizovaném textu

Náklady na LLM PHI miss

12,4% miss rate Claude 3 znamená:

  • Pro 10,000 klinických poznámek měsíčně: 1,240 poznámek s PHI leaks
  • Pokud sdílejí s výzkumníky: 1,240 potenciálních HIPAA porušení
  • Pokud každé porušení: $100 min. pokuty = $124,000 potenciální exposure

Závěr

LLM jsou výkonné nástroje pro klinické NLP, ale nejsou náhradou za specializovanou PHI detekci. Správná architektura kombinuje specializovaný NER pro de-identifikaci s LLM pro klinickou analýzu.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.