anonym.legal
Nazaj na blogZdravstvo

Zakaj veliki jezikovni modeli preskočijo 50 %...

Raziskava 2024 kaže, da LLM napačno zaznavajo 50 % zaščitenih zdravstvenih informacij. Ta razpoka ima posledice HIPAA - ne gre samo za napako.

April 2, 20269 min branja
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Razpeka zaznave LLM

Večji jezikovni modeli, trenirani na splošnih spletnih korporusih, ne razumejo domnev specifičnih za zdravstvo. Klinični zapisi vsebujejo kratica, kratice in neformalne zapise, ki jih splošni modeli napačno razlagajo. Kot primer: "pt. c/o MI" je akutni infarkt miokarda, ne "posebni odstavek".

Zaslužbe HIPAA zahtevajo zaznavo 18 vrst zaščitenih informacij: imena, datume, identifikacijske številke, pokrajine, telepone, fakse, e-poštne naslove, mobilne naslove, vse številske identifikatorje, vozne naslove avtomobilov, finančne račune, vse številske identifikatorje zavarovanja, zdravstvene številke registra, registre vozil, številke licenc, fotografije obraza. LLM običajno dosega 40-60 % natančnosti na testnih naborih HIPAA.

Največje napake?

  • Datumi: 2. januar 2024 se gleda kot sobota nasprotno datumu rojstva
  • Imena: "Dr. Johnson" se preskoči, če je v zdravniškem imenu
  • Kratica: "HTN" (hipertenzija), "CAD" (koronarna bolezen srca) se pogosto spregledajo
  • Lokacije: "Room 402" se redko zazna

Skladnost HIPAA-ja

Pripis 1702 iz zakona HIPAA zahteva "obvestilo o kršitvi" za razkritje 500+ zapisov. Če LLM preskoči 50 % PHI, tveganje za kršitev raste eksponentno.

Klinika v New Yorku je obdelala 50 000 klinično

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.