Проблемот со 50% стапка на пропуштање
Преглед од 2025 (arXiv:2509.14464) тестираше LLM алатки на клинички записи. Резултатите беа лоши. Овие алатки пропуштаа повеќе од 50% од клиничките PHI во повеќејазични документи. Причината е едноставна. LLM алатките се изградени за генерирање текст. Не се изградени за задачата на откривање со висок поврат, која HIPAA ја бара.
HIPAA Safe Harbor набројува 18 заштитени типови идентификатори. Имиња, датуми, телефонски броеви, SSN броеви, MRN броеви, ID броеви на здравствени планови, ID броеви на уреди и IP адреси. Секој бара своја сопствена логика за откривање.
Клиничките белешки го усложнуваат ова дополнително. Земете го овој пример: "Пт. Јован Д., ДОР 4/12/67, MRN 1234567, примен 03/15/24, Д-р Смит нареди ЕКГ." Една реченица. Пет заштитени идентификатори. Повеќето користат кратенки. Модел изграден за клиничко значење честопати не успева да ја изврши задачата на откривање.
Што пропуштаат LLM алатките и зошто
LLM алатките не успеваат на клинички записи на специфични начини.
Идентификатори во кратка форма: Клиничките белешки користат скратеници. ДОР, MRN и Пт. се вообичаени форми. Модел подесен за клиничко значење може да не го означи "Пт. Јован Д." како ime. Екстракцијата на чувствителни податоци бара поинаква цел.
Датуми зависни од контекст: Не сите датуми носат ист ризик. "Возраст 67" е мек маркер. "ДОР 4/12/67" е директен заштитен идентификатор. "03/15/24" како датум на прием, исто така, е заштитен. Само совпаѓање на шеми не е доволно.
Форматите надвор од САД: Cyberhaven (Q4 2025) откри дека 34,8% од сите ChatGPT влезни податоци содржат чувствителни информации, вклучувајќи повеќејазични лични податоци. Во здравствената заштита, ова значи ID броеви на записи кои не се од САД, регионални формати на датуми и локални типови на здравствени ID броеви. Алатките обучени на американски стандарди постојано ги пропуштаат.
Прилагодени болнички идентификатори: Болниците користат сопствени MRN формати, ID броеви на персоналот и кодови на локации. Тие не се во стандардни NER тренинг податоци. Алатка без поддршка за прилагодени ентитети нема да ги најде.
Ризикот на истражувачки датасет
Болница која гради истражувачки датасет од 500.000 белешки се соочува со реален проблем на усогласеност. HIPAA бара стандард "многу мал ризик" за деидентификувани податоци. Алатка која пропушта половина од сите заштитени идентификатори не може да го исполни тој стандард.
Истражувачките архиви не се чисти податоци. Белешките опфаќаат многу оддели, временски периоди и понекогаш јазици. Алатка која работи на фактурни податоци може да не успее на наративни белешки. Чувствителните податоци во слободен текст немаат ознака за поле.
Одобрувањето на IRB додава дополнителни барања. Институциите мора да го покажат користениот метод, отстранетите типови идентификатори и извршените проверки. Алатка која пропушта половина од сите записи не може да ги исполни тие барања.
Погледнете го нашиот преглед на усогласеноста и безбедносните практики за тоа kako anonym.legal ја поддржува работата согласно HIPAA.
Поправката со три слоеви
Прегледот од 2025 открил еден јасен образец. Алатките со најниски стапки на пропуштање користеле три слоеви на откривање.
Прв слој -- regex: Наоѓа структурирани идентификатори. SSN броеви, MRN броеви, телефонски броеви, ID броеви на здравствени планови. Доверлив на фиксни формати.
Втор слој -- NER: Користи трансформаторски модели. Наоѓа имиња, датуми и чувствителни податоци во наративен текст. Работи таму каде regex не може.
Трет слој -- прилагодени ентитети: Управува со специфични форми за локацијата. Сопствени MRN шеми, ID броеви на персоналот, кодови на установи. Ниеден стандарден модел не ги покрива.
Чистите ML алатки се деградираат на кратки форми и не-англиски текст. Чистите regex алатки пропуштаат чувствителни податоци без ознака за поле. Ниту едно само по себе не е доволно.
Само дизајнот со три слоеви достигна стапки на пропуштање под 5% во прегледот. Тоа е стандардот за усогласеност со HIPAA Safe Harbor.
Погледнете го нашиот водич за HIPAA Safe Harbor деидентификација за истражување за следните чекори.