Problem stope propustanja od 50%
Anketa iz 2025. (arXiv:2509.14464) testirala je LLM alate na klinickim zapisima. Rezultati su bili losi. Ti alati propustili su vise od 50% klinickih PHI u visejezicnim dokumentima. Uzrok je jednostavan. LLM-ovi su izgradeni za generiranje teksta. Nisu izgradeni za zadatak detekcije s visokim odazivom koji HIPAA zahtijeva.
HIPAA Safe Harbor navodi 18 vrsta zasticenih identifikatora. Imena, datumi, telefonski brojevi, SSN-ovi, MRN-ovi, ID-ovi zdravstvenih planova, ID-ovi uredaja i IP adrese. Svaki zahtijeva vlastitu logiku detekcije.
Klinicke biljeske to cine jos tezim. Uzmimo ovaj primjer: "Pac. Ivan H., DOB 12.4.67., MRN 1234567, primljen 15.03.24., dr. Kovac napravio EKG." Jedna recenica. Pet zasticenih identifikatora. Vecina koristi kratice. Model izgraden za klinicko znacenje cesto ne uspijeva u zadatku detekcije.
Sto LLM-ovi propustaju i zasto
LLM alati zakazuju na klinickim zapisima na predvidljive nacine.
Identifikatori u kratkom obliku: Klinicke biljeske koriste kratice. DOB, MRN i Pac. su uobicajeni oblici. Model podesen za klinicko znacenje mozda nece oznaciti "Pac. Ivan H." kao ime. Izvlacenje osjetljivih podataka zahtijeva drugaciji cilj.
Datumi ovisni o kontekstu: Nisu svi datumi jednako rizicni. "Dob 67" je slabi pokazatelj. "DOB 12.4.67." je izravni zasticeni identifikator. "15.03.24." kao datum prijema takoder je zastiteno. Samo podudaranje uzoraka nije dovoljno.
Formati koji nisu americkog podrijetla: Cyberhaven (Q4 2025.) otkrio je da 34,8% svih ChatGPT unosa sadrzi osjetljive podatke, ukljucujuci visejezicni PII. U zdravstvu to znaci ID-ove zapisa koji nisu iz SAD-a, regionalne formate datuma i lokalne vrste zdravstvenih ID-ova. Alati obuceni na americkim podacima ih dosljedno propustaju.
Prilagodeni identifikatori bolnica: Bolnice koriste vlastite formate MRN-a, ID-ove osoblja i kodove lokacija. Ti nisu u standardnim NER podacima za obuku. Alat bez podrske za prilagodene entitete ih nece pronaci.
Rizik istrazivackih skupova podataka
Bolnica koja gradi istrazivacki skup podataka od 500.000 biljeski suocava se s pravim problemom uskladenosti. HIPAA poziva na standard "vrlo malog rizika" za deidentificirane podatke. Alat koji propusta polovicu svih zasticenih identifikatora ne moze zadovoljiti tu granicu.
Istrazivacki arhivi nisu cisti podaci. Biljeske obuhvacaju mnoge odjele, vremenska razdoblja i ponekad jezike. Alat koji radi na podacima o naplati mozda nece uspjeti na narativnim biljezkama. Osjetljivi podaci u slobodnom tekstu nemaju oznaku polja.
Odobrenje IRB-a dodaje vise zahtjeva. Institucije moraju pokazati koristenu metodu, uklonjene vrste identifikatora i provedene provjere. Alat koji propusta polovicu svih zapisa ne moze ispuniti te zahtjeve.
Pogledajte nas pregled uskladenosti i sigurnosne prakse za to kako anonym.legal podrzava HIPAA rad.
Popravak s tri sloja
Anketa iz 2025. pronasla je jedan jasan uzorak. Alati s najnizim stopama propustanja koristili su tri sloja detekcije.
Sloj jedan - regex: Pronalazi strukturirane identifikatore. SSN-ove, MRN-ove, telefonske brojeve, ID-ove zdravstvenih planova. Pouzdan za fiksne formate.
Sloj dva - NER: Koristi transformer modele. Pronalazi imena, datume i osjetljive podatke u narativnom tekstu. Radi tamo gdje regex ne moze.
Sloj tri - prilagodeni entiteti: Rukuje oblicima specificnim za lokaciju. Vlasnicki MRN uzorci, ID-ovi osoblja, kodovi objekata. Nijedan standardni model ih ne pokriva.
Cisto ML alati degradiraju na kratkim oblicima i tekstu koji nije na engleskom. Cisto regex alati propustaju osjetljive podatke bez oznake polja. Niti jedan sam po sebi nije dovoljan.
Samo trostruki dizajn postigao je stopu propustanja ispod 5% u anketi. To je granica za uskladenost s HIPAA Safe Harbor.
Pogledajte nas vodic o HIPAA Safe Harbor deidentifikaciji za istrazivanje za sljedece korake.