50% izlaišanas problēma
- gada pārskats (arXiv:2509.14464) testēja LLM rīkus uz klīniskajiem ierakstiem. Rezultāti bija slikti. Šie rīki izlaida vairāk nekā 50% klīnisko PHI daudzvalodu dokumentos. Iemesls ir vienkāršs. LLM ir veidoti teksta izvadei. Tie nav veidoti augstai atsaukšanai, ko HIPAA prasa.
HIPAA drošās ostas metode uzskaita 18 aizsargātu identifikatoru tipus. Vārdi, datumi, tālruņa numuri, SSN, MRN, veselības plāna ID, ierīces ID un IP adreses. Katram nepieciešama sava atklāšanas loģika.
Klīniskie pieraksti to apgrūtina. Piemēram: "Pac. Jānis D., DzD 12.04.67, MRN 1234567, uzņemts 15.03.24, ārsts Kalniņš nozīmēja EKG." Viena rinda. Pieci aizsargāti identifikatori. Lielākā daļa izmanto saīsinātas formas. Modelis, kas veidots klīniskajai nozīmei, bieži nespēj veikt atklāšanas uzdevumu.
Ko LLM izlaiž un kāpēc
LLM rīki nespēj apstrādāt klīniskos ierakstus noteiktos veidos.
Saīsinātu formu identifikatori: Klīniskie pieraksti izmanto saīsinājumus. DzD, MRN un Pac. ir izplatītas formas. Modelis, kas kalibrēts klīniskajai nozīmei, var neatzīmēt "Pac. Jānis D." kā vārdu. Sensitīvo datu iegūšanai nepieciešams atšķirīgs mērķis.
Kontekstam atkarīgi datumi: Ne visi datumi rada vienādu risku. "68 gadu vecumā" ir mīksts marķieris. "DzD 12.04.67" ir tiešs aizsargāts identifikators. "15.03.24" kā uzņemšanas datums arī ir aizsargāts. Modeļu saskaņošana vien nav pietiekama.
Ārpus ASV formāti: Cyberhaven (Q4 2025) atklāja, ka 34,8% no visiem ChatGPT ievadiem satur konfidenciālus uzņēmuma datus, ieskaitot daudzvalodu PII. Veselības aprūpē tas nozīmē ierakstu ID no citām valstīm, reģionālos datumu formātus un vietējos veselības ID tipus. Rīki, kalibrēti uz ASV datiem, tos konsekventi izlaiž.
Pielāgoti slimnīcu identifikatori: Slimnīcas izmanto savus MRN formātus, darbinieku ID un atrašanās vietas kodus. Šie dati nav standarta NER apmācības datos. Rīks bez pielāgotu entītiju atbalsta tos neatradīs.
Pētniecības datu kopas risks
Slimnīca, kas veido pētniecības datu kopu no 500 000 pierakstiem, saskaras ar reālu atbilstības problēmu. HIPAA prasa "ļoti mazu risku" de-identificētiem datiem. Rīks, kas izlaiž pusi no visiem aizsargātiem identifikatoriem, nevar izpildīt šo prasību.
Pētniecības arhīvi nav tīri dati. Pieraksti aptver daudzas nodaļas, laika periodus un dažreiz valodas. Rīks, kas darbojas uz norēķinu datiem, var nespēt brīva teksta pierakstiem. Sensitīvie dati brīvā tekstā nav lauku apzīmēti.
IRB apstiprinājums izvirza papildu prasības. Iestādēm jāparāda izmantotā metode, noņemtie identifikatoru tipi un veiktās pārbaudes. Rīks, kas izlaiž pusi no visiem ierakstiem, nevar izpildīt šīs prasības.
Skatiet mūsu atbilstības pārskatu un drošības praksi, lai uzzinātu, kā anonym.legal atbalsta HIPAA darbu.
Trīs slāņu risinājums
- gada pārskats atklāja vienu skaidru modeli. Rīkiem ar zemākajiem izlaišanas rādītājiem bija trīs atklāšanas slāņi.
Pirmais slānis — regulārās izteiksmes: Atrod strukturētus identifikatorus. SSN, MRN, tālruņa numuri, veselības plāna ID. Uzticams fiksētiem formātiem.
Otrais slānis — NER: Izmanto transformatora modeļus. Atrod vārdus, datumus un sensitīvus datus naratīvā tekstā. Darbojas tur, kur regulārās izteiksmes nespēj.
Trešais slānis — pielāgotas entītijas: Apstrādā atrašanās vietai raksturīgas formas. Patentētus MRN modeļus, darbinieku ID, iestāžu kodus. Neviens standarta modelis tos nesedz.
Tīri ML rīki degradējas uz saīsinātām formām un angļu valodā. Tīri regulāro izteiksmju rīki izlaiž sensitīvus datus bez lauku apzīmējumiem. Ne viens pats nav pietiekams.
Tikai trīs slāņu dizains sasniedza zem 5% izlaišanas rādītājus pārskatā. Tā ir HIPAA drošās ostas atbilstības kārta.
Skatiet mūsu ceļvedi par HIPAA drošās ostas de-identifikāciju pētniecībā nākamajiem soļiem.