50 prosentin ohitusongema
Vuoden 2025 katsaus (arXiv:2509.14464) testasi LLM-työkaluja kliinisillä tietueilla. Tulokset olivat huolestuttavia. Nämä työkalut ohittivat yli 50 % kliinisestä PHI:stä monikielisissä asiakirjoissa. Syy on yksinkertainen. LLM:t on rakennettu tekstin tuottamiseen. Niitä ei ole rakennettu korkean muistikyvyn tunnistustehtävään, jota HIPAA vaatii.
HIPAA Safe Harbor listaa 18 suojattua tunnistustyyppiä. Nimet, päivämäärät, puhelinnumerot, SSN:t, MRN:t, sairausvakuutustunnukset, laitetunnukset ja IP-osoitteet. Jokaiselle tarvitaan oma tunnistuslogiikka.
Kliiniset muistiinpanot tekevät tästä vaikeampaa. Ota tämä esimerkki: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." Yksi lause. Viisi suojattua tunnistetta. Useimmat käyttävät lyhenteitä. Kliiniseen merkitykseen viritetty malli epäonnistuu usein tunnistustehtävässä.
Mitä LLM:t ohittavat ja miksi
LLM-työkalut epäonnistuvat kliinisissä tietueissa tietyillä tavoilla.
Lyhenne-tunnisteet: Kliiniset muistiinpanot käyttävät lyhenteitä. DOB, MRN ja Pt. ovat yleisiä muotoja. Kliiniseen merkitykseen viritetty malli ei välttämättä merkitse "Pt. John D." nimeksi. Arkaluonteisen datan poiminta vaatii eri tavoitteen.
Kontekstiriippuvaiset päivämäärät: Kaikki päivämäärät eivät ole yhtä riskialttiita. "Age 67" on pehmeä merkki. "DOB 4/12/67" on suora suojattu tunniste. "03/15/24" otospäivänä on myös suojattu. Kaavanvastaavuus yksin ei riitä.
Ei-yhdysvaltalaiset muodot: Cyberhaven (Q4 2025) havaitsi, että 34,8 % kaikista ChatGPT-syötteistä sisältää arkaluonteista dataa, mukaan lukien monikielistä PII:tä. Terveydenhuollossa tämä tarkoittaa ei-yhdysvaltalaisia tietueita, alueellisia päivämäärämuotoja ja paikallisia terveystunnisteita. Yhdysvaltalaisille datoille koulutetut työkalut ohittavat nämä johdonmukaisesti.
Mukautetut sairaalakohtaiset tunnisteet: Sairaalat käyttävät omia MRN-muotojaan, henkilöstötunnuksiaan ja toimipistekoode. Nämä eivät kuulu vakio-NER-koulutusaineistoon. Työkalu ilman mukautettujen entiteettien tukea ei löydä niitä.
Tutkimusdataston riski
Sairaala, joka rakentaa tutkimusaineistoa 500 000 muistiinpanosta, kohtaa todellisen vaatimustenmukaisuusongelman. HIPAA edellyttää "erittäin pientä riskiä" anonymisoituun dataan. Työkalu, joka ohittaa puolet kaikista suojatuista tunnisteista, ei voi täyttää tätä vaatimusta.
Tutkimusarkistot eivät ole siistiä dataa. Muistiinpanot kattavat useita osastoja, aikakausia ja joskus kieliä. Laskutusaineistolla toimiva työkalu voi epäonnistua narratiivisissa muistiinpanoissa. Arkaluonteinen data vapaatekstissä ei sisällä kenttätunnisteita.
IRB-hyväksyntä lisää vaatimuksia. Laitosten on osoitettava käytetty menetelmä, poistetut tunnistetyypit ja suoritetut tarkistukset. Työkalu, joka ohittaa puolet kaikista tietueista, ei voi täyttää näitä vaatimuksia.
Katso vaatimustenmukaisuusyhteenvetomme ja turvallisuuskäytäntömme siitä, miten anonym.legal tukee HIPAA-työtä.
Kolmikerroksinen korjaus
Vuoden 2025 katsaus löysi yhden selkeän kaavan. Työkaluilla, joilla oli alhaisimmat ohitusasteet, oli kolme tunnistuskerrosta.
Kerros yksi — regex: Löytää rakenteelliset tunnisteet. SSN:t, MRN:t, puhelinnumerot, sairausvakuutustunnukset. Luotettava kiinteissä muodoissa.
Kerros kaksi — NER: Käyttää transformer-malleja. Löytää nimiä, päivämääriä ja arkaluonteista dataa narratiivisesta tekstistä. Toimii siellä, missä regex ei pysty.
Kerros kolme — mukautetut entiteetit: Käsittelee toimipistekohtaiset muodot. Omat MRN-kaavat, henkilöstötunnukset, toimipistekoode. Mikään vakiomalli ei kata näitä.
Puhtaat ML-työkalut heikkenevät lyhyissä muodoissa ja ei-englanninkielisessä tekstissä. Puhtaat regex-työkalut ohittavat arkaluonteisen datan ilman kenttätunnistetta. Kumpikaan yksin ei riitä.
Vain kolmikerroksinen rakenne saavutti alle 5 %:n ohitusasteet katsauksessa. Se on HIPAA Safe Harbor -vaatimustenmukaisuuden vaatimus.
Katso oppaamme HIPAA Safe Harbor -anonymisoinnista tutkimuskäyttöön jatkotoimenpiteitä varten.