Problem sa stopom propuštanja od 50%
Istraživanje iz 2025. (arXiv:2509.14464) testiralo je LLM alate na kliničkim zapisima. Rezultati su bili loši. Ovi alati propustili su više od 50% kliničkih PHI podataka u višejezičnim dokumentima. Uzrok je jednostavan. LLM-ovi su napravljeni za generisanje teksta. Nisu napravljeni za zadatak detekcije s visokim odazivom koji HIPAA zahteva.
HIPAA Safe Harbor navodi 18 vrsta zaštićenih identifikatora. Imena, datumi, telefonski brojevi, SSN-ovi, MRN-ovi, ID-ovi zdravstvenih planova, ID-ovi uredjaja i IP adrese. Svaki zahteva sopstvenu logiku detekcije.
Klinički zapisi to dodatno otežavaju. Uzmimo ovaj primer: "Pt. John D., DOB 4/12/67, MRN 1234567, primljen 03/15/24, Dr. Smith naložio EKG." Jedna rečenica. Pet zaštićenih identifikatora. Većina koristi skraćene oblike. Model napravljen za kliničko razumevanje često ne uspeva u zadatku detekcije.
Šta LLM-ovi propuštaju i zašto
LLM alati ne uspevaju na kliničkim zapisima na predvidiv način.
Kratki identifikatori: Klinički zapisi koriste skraćenice. DOB, MRN i Pt. su uobičajeni oblici. Model podešen za kliničko razumevanje možda neće označiti "Pt. John D." kao ime. Ekstrakcija osetljivih podataka zahteva drugačiji cilj.
Datumi zavisni od konteksta: Nisu svi datumi jednako rizični. "Starost 67" je mekani marker. "DOB 4/12/67" je direktan zaštićeni identifikator. "03/15/24" kao datum prijema je takodje zaštićen. Samo podudaranje obrazaca nije dovoljno.
Ne-američki formati: Cyberhaven (Q4 2025) otkrio je da 34,8% svih ChatGPT unosa sadrži osetljive podatke, uključujući višejezični PII. U zdravstvenim uslugama, to znači ne-američki ID zapisi, regionalni formati datuma i lokalni tipovi zdravstvenih ID-ova. Alati obučeni na američkim podacima ovo konzistentno propuštaju.
Prilagodljivi identifikatori bolnica: Bolnice koriste sopstvene MRN formate, ID-ove osoblja i kodove lokacija. Ovi nisu u standardnim NER trening podacima. Alat bez podrške za prilagodljive entitete ih neće pronaći.
Rizik istraživačkih skupova podataka
Bolnica koja gradi istraživački skup podataka od 500.000 zapisa suočava se sa stvarnim problemom usklađenosti. HIPAA zahteva standard "veoma malog rizika" za de-identifikovane podatke. Alat koji propušta polovinu svih zaštićenih identifikatora ne može da ispuni taj standard.
Istraživački arhivi nisu čisti podaci. Zapisi obuhvataju mnoge odeljke, vremenska perioda i ponekad jezike. Alat koji funkcioniše na podacima za naplatu može da ne uspe na narativnim zapisima. Osetljivi podaci u slobodnom tekstu nemaju oznaku polja.
Odobrenje IRB-a dodaje još zahteva. Institucije moraju da pokažu korišćenu metodu, uklonjene tipove identifikatora i izvršene provere. Alat koji propušta polovinu svih zapisa ne može da ispuni te zahteve.
Pogledajte naš pregled usklađenosti i bezbednosne prakse za informacije o tome kako anonym.legal podržava HIPAA rad.
TroSlojno rešenje
Istraživanje iz 2025. otkrilo je jedan jasan obrazac. Alati s najnižim stopama propuštanja koristili su tri sloja detekcije.
Sloj jedan — regex: Pronalazi strukturirane identifikatore. SSN-ovi, MRN-ovi, telefonski brojevi, ID-ovi zdravstvenih planova. Pouzdano za fiksne formate.
Sloj dva — NER: Koristi transformer modele. Pronalazi imena, datume i osetljive podatke u narativnom tekstu. Funkcioniše tamo gde regex ne može.
Sloj tri — prilagodljivi entiteti: Rukuje oblicima specifičnim za lokaciju. Privatni MRN obrasci, ID-ovi osoblja, kodovi objekata. Nijedan standardni model ne pokriva ovo.
Čisti ML alati degradiraju na kratkim oblicima i ne-engleskom tekstu. Čisti regex alati propuštaju osetljive podatke bez oznake polja. Ni jedan sam po sebi nije dovoljan.
Samo troslojna arhitektura dostigla je stope propuštanja ispod 5% u istraživanju. To je standard za HIPAA Safe Harbor usklađenost.
Pogledajte naš vodič o HIPAA Safe Harbor de-identifikaciji za istraživanja za sledeće korake.