Problem 50-percentnej miery prehliadania
Prieskum z roku 2025 (arXiv:2509.14464) testoval LLM nastroje na klinickych zaznamoch. Vysledky boli zle. Tieto nastroje prehliadli viac ako 50 % klinickej PHI vo viacjazyčnych dokumentoch. Pricina je jednoducha. LLM su postavene pre textovy vystup. Nie su postavene pre detekcnu ulohu s vysokou navratnostou, aku vyzaduje HIPAA.
HIPAA Safe Harbor uvádza 18 typov chránenych identifikátorov. Mena, datumy, telefónne čísla, čísla SSN, čísla lekárskych záznamov, ID zdravotneho planu, ID zariadeni a IP adresy. Každý typ si vyzaduje vlastnu detekčnu logiku.
Klinicke záznamy toto este zťažuju. Vezmi tento priklad: "Pac. Jan N., DOB 4/12/67, MRN 1234567, prijaty 03/15/24, Dr. Novak nariadil EKG." Jedna veta. Pat chránenych identifikátorov. Väčšina pouzíva skratky. Model orientovany na klinicky vyznam casto v tejto úlohe zlyha.
Co LLM prehliadaju a preco
LLM nastroje zlyháváju na klinickych zaznamoch zakonitymi sposobmi.
Identifikátory v skratenej forme: Klinicke záznamy pouzivaju skratky. DOB, MRN a Pac. su bezne formy. Model nastaveny na klinicky vyznam nemusí označit "Pac. Jan N." ako meno. Extrahovanie citlivych dat vyzaduje iny ciel.
Datumy závislé od kontextu: Nie vsetky datumy predstavuju rovnake riziko. "Vek 67" je mekky marker. "DOB 4/12/67" je priamy chráneny identifikátor. "03/15/24" ako datum prijatia je tiez chráneny. Samotné vzorové párovanje nestaci.
Formáty mimo USA: Cyberhaven (Q4 2025) zistil, ze 34,8 % vsetkych vstupov do ChatGPT obsahuje citlive data, vrátane viacjazyčnej PII. V zdravotníctve to znamená ID záznamy mimo USA, regionálne formáty dátumov a miestne typy zdravotnych ID. Nastroje trenovane na USA tieto konzistentne prehliadaju.
Vlastné nemocničné identifikátory: Nemocnice pouzivaju vlastné formáty MRN, ID zamestnancov a kódy pracoviská. Tieto nie su v standardnych trenovacich datach NER. Nastroj bez podpory vlastnych entít ich nenajde.
Riziko vyskumneho datasetu
Nemocnica budujúca vyskumny dataset z 500 000 zaznamov celí reálnemu problemu dodrziavania predpisov. HIPAA vyzaduje standard "veľmi maleho rizika" pri de-identifikovaných datach. Kvalifikovana osoba to musí overiť. IRB, ktory schvaluje vyskum s de-identifikovanymi pacientskymi datami, tiez potřebuje záznamy. Musíte zdokumentovať použitu metódu, typy odstránenych entit a vykonané kontroly kvality.
Tato požiadavka na záznamy je klucová. De-identifikacia nemôže byt čierna skrinka. Musíte ukázať, co bolo najdene, co bolo odstrânene a ako ste skontrolovali vysledok.
Nahravanie 500 000 suborov do cloudového API je pomale a nakladne. Obmedzenia rychlosti a dlhe prenosové doby to znemoznuju. Cloudové behy sú pre velké vyskumné datasety zriedkakedy prakticke.
HIPAA prida ďalšie obavy. Odoslanie chránenych zdravotnych informácii (PHI) Obchodnemu partnerovi — dokonca aj predajcovi de-identifikácie — vyzaduje Zmluvu o obchodnom partnerstve (BAA). Pre IRB vyskum sa pravidlá BAA mozu krizovat s podmienkami použitia dat IRB. Casto je potrebna pravna revízia. Miestne behy uplne eliminuju obavy z prenosu dat.
Pozrite si nas prehlad dodrziavania a bezpecnostné postupy, kde sa dozviete, ako anonym.legal podporuje prácu v sulade s HIPAA.
Trojvrstvová oprava
Prieskum z roku 2025 odhalil jeden jasny vzorec. Nastroje s najnizsou mierou prehliadania pouzili tri detekčné vrstvy.
Vrstva jedna — regex: Nachádza strukturované identifikátory. SSN, MRN, telefónne čísla, ID zdravotneho planu. Spolahlivé pri pevnych formátoch.
Vrstva dve — NER: Pouzíva transformerové modely. Nachádza mena, datumy a citlive data v narrátívnom texte. Funguje tam, kde regex nemoze.
Vrstva tri — vlastné entity: Spracúva miestne specificke formy. Proprietarné vzory MRN, ID zamestnancov, kódy zariadeni. Ziadny standardny model tieto nepokryva.
Cisté ML nastroje degraduju pri skratkach a neanglickom texte. Čisté regex nastroje prehliadaju citlive data bez etikety pola. Ani jedno samo nestaci.
Len trojvrstvový dizajn dosiahol mieru prehliadania pod 5 % v prieskume. To je latka pre dodrzanie HIPAA Safe Harbor.
Pozrite si naseho pruvodcu HIPAA Safe Harbor de-identifikacia pre vyskum pre dalšie kroky.