50 prosentin ohitusongema

Vuoden 2025 katsaus (arXiv:2509.14464) testasi LLM-työkaluja kliinisillä tietueilla. Tulokset olivat huolestuttavia. Nämä työkalut ohittivat yli 50 % kliinisestä PHI:stä monikielisissä asiakirjoissa. Syy on yksinkertainen. LLM:t on rakennettu tekstin tuottamiseen. Niitä ei ole rakennettu korkean muistikyvyn tunnistustehtävään, jota HIPAA vaatii.

HIPAA Safe Harbor listaa 18 suojattua tunnistustyyppiä. Nimet, päivämäärät, puhelinnumerot, SSN:t, MRN:t, sairausvakuutustunnukset, laitetunnukset ja IP-osoitteet. Jokaiselle tarvitaan oma tunnistuslogiikka.

Kliiniset muistiinpanot tekevät tästä vaikeampaa. Ota tämä esimerkki: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." Yksi lause. Viisi suojattua tunnistetta. Useimmat käyttävät lyhenteitä. Kliiniseen merkitykseen viritetty malli epäonnistuu usein tunnistustehtävässä.

Mitä LLM:t ohittavat ja miksi

LLM-työkalut epäonnistuvat kliinisissä tietueissa tietyillä tavoilla.

Lyhenne-tunnisteet: Kliiniset muistiinpanot käyttävät lyhenteitä. DOB, MRN ja Pt. ovat yleisiä muotoja. Kliiniseen merkitykseen viritetty malli ei välttämättä merkitse "Pt. John D." nimeksi. Arkaluonteisen datan poiminta vaatii eri tavoitteen.

Kontekstiriippuvaiset päivämäärät: Kaikki päivämäärät eivät ole yhtä riskialttiita. "Age 67" on pehmeä merkki. "DOB 4/12/67" on suora suojattu tunniste. "03/15/24" otospäivänä on myös suojattu. Kaavanvastaavuus yksin ei riitä.

Ei-yhdysvaltalaiset muodot: Cyberhaven (Q4 2025) havaitsi, että 34,8 % kaikista ChatGPT-syötteistä sisältää arkaluonteista dataa, mukaan lukien monikielistä PII:tä. Terveydenhuollossa tämä tarkoittaa ei-yhdysvaltalaisia tietueita, alueellisia päivämäärämuotoja ja paikallisia terveystunnisteita. Yhdysvaltalaisille datoille koulutetut työkalut ohittavat nämä johdonmukaisesti.

Mukautetut sairaalakohtaiset tunnisteet: Sairaalat käyttävät omia MRN-muotojaan, henkilöstötunnuksiaan ja toimipistekoode. Nämä eivät kuulu vakio-NER-koulutusaineistoon. Työkalu ilman mukautettujen entiteettien tukea ei löydä niitä.

Tutkimusdataston riski

Sairaala, joka rakentaa tutkimusaineistoa 500 000 muistiinpanosta, kohtaa todellisen vaatimustenmukaisuusongelman. HIPAA edellyttää "erittäin pientä riskiä" anonymisoituun dataan. Työkalu, joka ohittaa puolet kaikista suojatuista tunnisteista, ei voi täyttää tätä vaatimusta.

Tutkimusarkistot eivät ole siistiä dataa. Muistiinpanot kattavat useita osastoja, aikakausia ja joskus kieliä. Laskutusaineistolla toimiva työkalu voi epäonnistua narratiivisissa muistiinpanoissa. Arkaluonteinen data vapaatekstissä ei sisällä kenttätunnisteita.

IRB-hyväksyntä lisää vaatimuksia. Laitosten on osoitettava käytetty menetelmä, poistetut tunnistetyypit ja suoritetut tarkistukset. Työkalu, joka ohittaa puolet kaikista tietueista, ei voi täyttää näitä vaatimuksia.

Katso vaatimustenmukaisuusyhteenvetomme ja turvallisuuskäytäntömme siitä, miten anonym.legal tukee HIPAA-työtä.

Kolmikerroksinen korjaus

Vuoden 2025 katsaus löysi yhden selkeän kaavan. Työkaluilla, joilla oli alhaisimmat ohitusasteet, oli kolme tunnistuskerrosta.

Kerros yksi — regex: Löytää rakenteelliset tunnisteet. SSN:t, MRN:t, puhelinnumerot, sairausvakuutustunnukset. Luotettava kiinteissä muodoissa.

Kerros kaksi — NER: Käyttää transformer-malleja. Löytää nimiä, päivämääriä ja arkaluonteista dataa narratiivisesta tekstistä. Toimii siellä, missä regex ei pysty.

Kerros kolme — mukautetut entiteetit: Käsittelee toimipistekohtaiset muodot. Omat MRN-kaavat, henkilöstötunnukset, toimipistekoode. Mikään vakiomalli ei kata näitä.

Puhtaat ML-työkalut heikkenevät lyhyissä muodoissa ja ei-englanninkielisessä tekstissä. Puhtaat regex-työkalut ohittavat arkaluonteisen datan ilman kenttätunnistetta. Kumpikaan yksin ei riitä.

Vain kolmikerroksinen rakenne saavutti alle 5 %:n ohitusasteet katsauksessa. Se on HIPAA Safe Harbor -vaatimustenmukaisuuden vaatimus.

Katso oppaamme HIPAA Safe Harbor -anonymisoinnista tutkimuskäyttöön jatkotoimenpiteitä varten.

Lähteet

Liittyvät Artikkelit

Terveydenhuolto

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

LLM:t ohittavat 50 % kliinisestä PHI:stä

50 prosentin ohitusongema

Mitä LLM:t ohittavat ja miksi

Tutkimusdataston riski

Kolmikerroksinen korjaus

Lähteet

Liittyvät Artikkelit

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Valmiina suojaamaan tietojasi?

LLM:t ohittavat 50 % kliinisestä PHI:stä

50 prosentin ohitusongema

Mitä LLM:t ohittavat ja miksi

Tutkimusdataston riski

Kolmikerroksinen korjaus

Lähteet

Liittyvät Artikkelit

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow