Razpeka zaznave LLM
Večji jezikovni modeli, trenirani na splošnih spletnih korporusih, ne razumejo domnev specifičnih za zdravstvo. Klinični zapisi vsebujejo kratica, kratice in neformalne zapise, ki jih splošni modeli napačno razlagajo. Kot primer: "pt. c/o MI" je akutni infarkt miokarda, ne "posebni odstavek".
Zaslužbe HIPAA zahtevajo zaznavo 18 vrst zaščitenih informacij: imena, datume, identifikacijske številke, pokrajine, telepone, fakse, e-poštne naslove, mobilne naslove, vse številske identifikatorje, vozne naslove avtomobilov, finančne račune, vse številske identifikatorje zavarovanja, zdravstvene številke registra, registre vozil, številke licenc, fotografije obraza. LLM običajno dosega 40-60 % natančnosti na testnih naborih HIPAA.
Največje napake?
- Datumi: 2. januar 2024 se gleda kot sobota nasprotno datumu rojstva
- Imena: "Dr. Johnson" se preskoči, če je v zdravniškem imenu
- Kratica: "HTN" (hipertenzija), "CAD" (koronarna bolezen srca) se pogosto spregledajo
- Lokacije: "Room 402" se redko zazna
Skladnost HIPAA-ja
Pripis 1702 iz zakona HIPAA zahteva "obvestilo o kršitvi" za razkritje 500+ zapisov. Če LLM preskoči 50 % PHI, tveganje za kršitev raste eksponentno.
Klinika v New Yorku je obdelala 50 000 klinično