Vissza a BlograEgészségügy

Miért hagyja ki az LLM a klinikai PHI 50%-át...

Egy 2025-ös tanulmány azt találta, hogy az LLM-ek a klinikai PHI több mint 50%-át kihagyják a többnyelvű dokumentumokban.

April 2, 20269 perc olvasás
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Az LLM klinikai PHI-hiányosság

Egy 2025-ös, Annals of Internal Medicine-ben megjelent tanulmány a nagy nyelvi modellek orvosi dokumentum de-azonosítási teljesítményét értékelte.

A főbb megállapítások:

  • Az LLM-ek a klinikai PHI >50%-át kihagyják a többnyelvű dokumentumokban
  • A kihagyási arány alacsonyabb, ha az egész dokumentum angolul van (28-33%)
  • A leggyakrabban kihagyott azonosítók: dátumok, helyspecifikus adatok, ritka azonosítók

Miért vallanak kudarcot az LLM-ek klinikai PHI-n

A hallucináció-kihagyás paradoxona

Az LLM-ek megbízhatóan detektálnak nyilvánvaló PHI-t (neveket, SSN-eket). Kihagyják:

  • Dátumok és életkorok implicit kontextusban
  • Klinikai rövidítések, amelyek dátumokat kódolnak (POD-4, DOA)
  • Helyspecifikus adatok (kisváros neve + diagnózis = ritka beteg azonosítható)
  • Tizenkét-jegyű MRN-ek, amelyek nem hasonlítanak szabályos PHI-ra

A HIPAA Safe Harbor 18 azonosítója

A HIPAA meghatároz 18 specifikus PHI-típust, amelyek mind el kell legyenek távolítva. Az általános célú LLM-ek a 18-ból kb. 10-12-re tanítottak. A maradék 6-8 kategória kihagyja a legtöbb általános célú LLM.

Az anonym.legal hibrid motor előnye

A kizárólag LLM-alapú megközelítéssel szemben az anonym.legal hibrid motort alkalmaz:

  • NER: Kontextuális névfelismerés
  • Regex + ellenőrző összeg: Strukturált azonosítók (MRN, SSN, IBAN)
  • Dátum-felismerő: Implicit dátumkifejezések
  • Szótáralapú: Klinikai rövidítések PHI-kontextusban

Következtetés

Az LLM-ek nem megfelelőek önmagukban a HIPAA Safe Harbor de-azonosításhoz. A hibrid motor – NLP + regex + szótár – az egyetlen megbízható megközelítés a szabályszerű klinikai de-azonosításhoz.

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.