Проблемът с 50% пропускане
Проучване от 2025 г. (arXiv:2509.14464) тества LLM инструменти върху клинични досиета. Резултатите са лоши. Тези инструменти пропускат над 50% от клиничния PHI в многоезични документи. Причината е проста. LLM инструментите са създадени за текстов изход. Не са създадени за задачата за детекция с висок recall, която HIPAA изисква.
HIPAA Safe Harbor изброява 18 защитени типа идентификатори. Имена, дати, телефонни номера, SSN, MRN, идентификатори на здравни планове, идентификатори на устройства и IP адреси. Всеки изисква собствена логика за детекция.
Клиничните бележки усложняват допълнително задачата. Ето пример: "Пц. Иван Д., ДатаР 12.04.67, MRN 1234567, приет 15.03.24, Д-р Петров назначи ЕКГ." Едно изречение. Пет защитени идентификатора. Повечето използват съкратени форми. Модел, изграден за клинично значение, често се проваля при задачата за детекция.
Какво пропускат LLM инструментите и защо
LLM инструментите се провалят при клинични досиета по определени начини.
Идентификатори в съкратена форма: Клиничните бележки използват стенография. ДатаР, MRN и Пц. са чести форми. Модел, настроен за клинично значение, може да не маркира "Пц. Иван Д." като лично. Извличането на чувствителни данни изисква различна цел.
Зависими от контекст дати: Не всички дати представляват еднакъв риск. "Възраст 67" е мек маркер. "ДатаР 12.04.67" е пряк защитен идентификатор. "15.03.24" като дата на приемане също е защитена. Само съвпадение на шаблони не е достатъчно.
Формати извън САЩ: Cyberhaven (Q4 2025) установи, че 34,8% от всички входни данни в ChatGPT съдържат чувствителни данни, включително многоезичен PII. В здравеопазването това означава ID номера на записи извън САЩ, регионални формати на дати и местни типове здравни идентификатори. Инструментите, обучени за САЩ, ги пропускат постоянно.
Персонализирани болнични идентификатори: Болниците използват собствени MRN формати, идентификатори на персонала и кодове на обектите. Те не присъстват в стандартните данни за обучение на NER. Инструмент без поддръжка за персонализирани субекти не може да ги открие.
Рискът при изследователски набори от данни
Болница, изграждаща изследователски набор от данни от 500 000 бележки, е изправена пред реален проблем с постигането на съответствие. HIPAA изисква стандарт на "много малък риск" за деидентифицирани данни. Инструмент, пропускащ половината от всички защитени идентификатори, не може да отговори на това изискване.
Изследователските архиви не са чисти данни. Бележките обхващат много отдели, периоди от време и понякога езици. Инструмент, работещ добре с данни за фактуриране, може да се провали при разказни бележки. Чувствителните данни в свободен текст нямат полеви маркер.
Одобрението на IRB добавя допълнителни изисквания. Институциите трябва да покажат използвания метод, премахнатите типове идентификатори и извършените проверки. Инструмент, пропускащ половината от всички записи, не може да изпълни тези изисквания.
Вижте нашия преглед на съответствието и практики по сигурност за начина, по който anonym.legal поддържа HIPAA работата.
Решението с три слоя
Проучването от 2025 г. установи един ясен модел. Инструментите с най-ниски нива на пропускане използват три слоя за детекция.
Слой първи - regex: Открива структурирани идентификатори. SSN, MRN, телефонни номера, идентификатори на здравни планове. Надежден при фиксирани формати.
Слой втори - NER: Използва трансформерни модели. Открива имена, дати и чувствителни данни в разказен текст. Работи там, където regex не може.
Слой трети - персонализирани субекти: Обработва специфични за обекта форми. Персонализирани MRN шаблони, идентификатори на персонала, кодове на обекти. Нито един стандартен модел не покрива тях.
Чистите ML инструменти деградират при съкратени форми и нeanглийски текст. Чистите regex инструменти пропускат чувствителни данни без полеви маркер. Нито един от двата поотделно не е достатъчен.
Само дизайнът с три слоя постига нива на пропускане под 5% в проучването. Това е нивото за съответствие с HIPAA Safe Harbor.
Вижте нашето ръководство за деидентификация по HIPAA Safe Harbor за изследвания за следващи стъпки.