Tezava 50-odstotne stopnje zamud
Pregled iz leta 2025 (arXiv:2509.14464) je testiral orodja LLM na klinicnih zapisih. Rezultati so bili slabi. Ta orodja so zamudila vec kot 50% klinicne PHI v vecjezikovnih dokumentih. Vzrok je preprost. LLM-ji so zgrajeni za izhod besedila. Niso zgrajeni za nalogo zaznavanja z visokim priklicem, ki jo zahteva HIPAA.
Varianta HIPAA Safe Harbor navaja 18 vrst zascitenih identifikatorjev. Imena, datumi, telefonske stevilke, SSN-ji, MRN-ji, ID-ji zdravstvenih nacrtov, ID-ji naprav in IP-naslovi. Vsak potrebuje svojo logiko zaznavanja.
Klinicni zapiski to otezijo. Vzemimo ta primer: "Pt. John D., DOB 4/12/67, MRN 1234567, sprejet 03/15/24, dr. Smith je narocil EKG." En stavek. Pet zascitenih identifikatorjev. Vecina uporablja kratke oblike. Model, zgrajen za klinicni pomen, pogosto ne opravi naloge zaznavanja.
Kaj LLM-ji zamudijo in zakaj
Orodja LLM ne uspejo pri klinicnih zapisih na dolocljive nacine.
Kratki identifikatorji: Klinicni zapiski uporabljajo krajsave. DOB, MRN in Pt. so pogoste oblike. Model, nastrojen za klinicni pomen, morda ne oznaci "Pt. John D." kot ime. Pridobivanje obcutljivih podatkov zahteva drug cilj.
Datumi, odvisni od konteksta: Niso vsi datumi enako tvegani. "Starost 67" je mehek pokazatelj. "DOB 4/12/67" je neposreden zasciten identifikator. "03/15/24" kot datum sprejema je prav tako zasciten. Samo ujemanje vzorcev ne zadosca.
Formati, ki niso ameriski: Cyberhaven (4. cetrtletje 2025) je ugotovil, da 34,8% vseh vnosov v ChatGPT vsebuje zaupne poslovne informacije, vkljucno z vecjezicno PII. V zdravstvu to pomeni ne-americke ID-je zapisov, regionalne formate datumov in lokalne vrste zdravstvenih ID-jev. Orodja, naucena na americkih podatkih, jih dosledno zamudijo.
Lastniski identifikatorji bolnisnice: Bolnisnice uporabljajo lastne formate MRN, ID-je osobja in kode lokacij. Ti niso v standardnih podatkih za usposabljanje NER. Orodje brez podpore za lastniske entitete jih ne bo naslo.
Tveganje raziskovalnih podatkovnih naborov
Bolnisnica, ki gradi raziskovalni nabor podatkov iz 500.000 zapiskov, se soci z resno tezavo skladnosti. HIPAA zahteva standard "zelo majhnega tveganja" za de-identificirane podatke. Orodje, ki zamudi polovico vseh zascitenih identifikatorjev, tega standarda ne more doseci.
Raziskovalni arhivi niso cisti podatki. Zapiski zajemajo vec oddelkov, casovnih obdobij in vcasih jezikov. Orodje, ki deluje na podatkih za obracunavanje, morda ne uspe pri narativnih zapiskih. Obcutljivi podatki v prostem besedilu nimajo oznake polja.
Odobritev IRB doda se vec zahtev. Institucije morajo prikazati uporabljeno metodo, odstranjene vrste identifikatorjev in opravljene preglede. Orodje, ki zamudi polovico vseh zapisov, teh zahtev ne more izpolniti.
Poglejte nas pregled skladnosti in varnostne prakse za to, kako anonym.legal podpira delo v skladu s HIPAA.
Popravek s tremi plastmi
Pregled iz leta 2025 je razkril en jasen vzorec. Orodja z najnizjimi stopnjami zamud so uporabljala tri plasti zaznavanja.
Plast ena -- regex: Najde strukturirane identifikatorje. SSN-ji, MRN-ji, telefonske stevilke, ID-ji zdravstvenih nacrtov. Zanesljiv pri fiksnih formatih.
Plast dve -- NER: Uporablja transformatorske modele. Najde imena, datume in obcutljive podatke v narativnem besedilu. Deluje tam, kjer regex ne more.
Plast tri -- lastniske entitete: Obravnava specificne forme za lokacijo. Lastniski vzorci MRN, ID-ji osobja, kode objektov. Noben standardni model ne pokriva teh.
Cisto orodja ML se poslabsajo pri kratkih oblikah in ne-angleski besedilih. Cisto orodja regex zamudijo obcutljive podatke brez oznake polja. Nobeno samo po sebi ni dovolj.
Le zasnova s tremi plastmi je v pregledu dosegla stopnje zamud pod 5%. To je meja za skladnost s HIPAA Safe Harbor.
Poglejte nas vodnik o de-identifikaciji HIPAA Safe Harbor za raziskave za naslednje korake.