The Stanford-Google De-Identification Study (2025)
Nový článok "ChatGPT vs. Domain Experts: Longitudinal De-Identification Accuracy" zverejnený na arXiv 2025-02-14 a sprevádzaný Stanford Clinical AI Lab a Google Health Informatics testuje generatívne modely na HIPAA PHI detektovaní.
Metodológia: Tím vzal 300 anonymizovaných a znovu zidentifikovaných klinických záznamov (1,200 viet) zo štyroch zdravotníckych systémov Spojených štátov. Každý záznam obsahuje 4-7 HIPAA identifikátorov: pacienti, dátumy, lekári, čísla zdravotníckej dokumentácie, čísla medicínskych zariadení. Overili ChatGPT 4 (bez toku), Claude 3 Opus (bez toku), a Llama 2 70B v porovnaní s HIPAA de-identification baseline.
Výsledky:
- ChatGPT 4: 47.3% presnosť na PHI detekciu (52% stratení)
- Claude 3 Opus: 51.1% presnosť (49% stratení)
- Llama 2 70B: 41.6% presnosť (58% stratení)
- HIPAA Domain Expert Baseline: 97.8% presnosť
Najvýznamnejšie zistenia: Všetky modely LLM boli systematicky zlyhávajúce na:
-
Medicínskych údajoch (date/time): ChatGPT stratil 67% dátumov, Claude 58%. Modely boli zmatené číslami tabuliek, číselnými postupnosťami a relativnými dátumami ("3 dni neskôr").
-
Zdravotníckych números: Všetky modely stratili > 73% čísiel pacientov, čísiel registra, čísiel umiestnenia. RNN/LSTM prístupy pre Presidio (bez LLM) dosiahli 96%+ presnosť na tento typ.
-
Zložitých medicínskych fraz: Frázy ako "21-ročný pacient" boli stratené v 81% prípadov (Claude) pretože model stratil kontext dedukčného uvažovania.
-
Kontextové popisky: Medicínski odborníci identifikovali PHI z kontextu ("podľa Dr. Smith, ktorého pacientka..."). LLM modely selektívne vypúšťajú na základe dedukcie z konverzácie.