anonym.legal
Назад к блогуЗдравоохранение

Почему LLM пропускают 50% клинической PHI...

Исследование 2025 года показало, что LLM пропускают более 50% клинической PHI в многоязычных документах.

April 2, 20269 мин чтения
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Проблема пропуска 50%

Опрос 2025 года о инструментах де-идентификации на основе LLM (arXiv:2509.14464) показал, что общие инструменты LLM пропускают более 50% клинической PHI в многоязычных документах. Эта цифра отражает фундаментальное архитектурное несоответствие: LLM предназначены для понимания и генерации языка, а не для структурированной задачи идентификации с высоким уровнем извлечения, которую требует де-идентификация по HIPAA.

Метод Safe Harbor Правила конфиденциальности HIPAA требует удаления 18 конкретных категорий идентификаторов: имена, географические данные, даты, номера телефонов, номера факсов, адреса электронной почты, номера социального страхования, номера медицинских карт, номера бенефициаров медицинских планов, номера счетов, номера сертификатов/лицензий, VIN, идентификаторы устройств, веб-URL, IP-адреса, биометрические идентификаторы, фотографии в полный рост и любые другие уникальные идентифицирующие номера или коды. Каждая из этих категорий имеет структурированные форматы, которые требуют специфической логики обнаружения.

Клинические заметки — это место, где сосредоточены трудности. Рассмотрим типичный фрагмент клинической заметки: "Пациент. Джон Д., ДР 12.04.67, НМР 1234567, поступил в отделение неотложной помощи 15.03.24 с болью в груди. Предыдущая история: АГ, СД. Доктор Смит назначил ЭКГ." Это одно предложение содержит имя, дату рождения, НМР, дату поступления и лечащего врача — пять идентификаторов HIPAA, некоторые в сокращенной форме, встроенные в клинический шорткат.

Что пропускают LLM и почему

Общие LLM не справляются с клинической PHI по предсказуемым паттернам.

Сокращенные идентификаторы: Клинические заметки используют стандартные сокращения (ДР для даты рождения, НМР для номера медицинской карты, Пациент. для пациента), которые могут не распознаваться как маркеры PII без контекста. LLM, читающий вышеуказанную заметку для общего понимания, понимает клиническое значение; LLM, которому поручено извлечение PHI, может пропустить "Пациент. Джон Д." как частичный шаблон имени.

Зависимые от контекста даты: Даты в клинических заметках имеют специфическое значение для HIPAA. "Возраст 67" — это частичный де-идентификатор, который необходимо отметить. "ДР 12.04.67" — это PHI. "15.03.24" как дата поступления — это PHI. Для этого требуется извлечение дат с учетом контекста, а не просто сопоставление шаблонов дат.

Форматы региональных идентификаторов: Исследование Cyberhaven (Q4 2025) показало, что 34,8% всех вводов ChatGPT содержат чувствительные данные, включая многоязычные PII. В контексте здравоохранения это включает форматы медицинских карт, не относящиеся к США, международные дата-форматы и форматы идентификаторов здоровья, специфичные для стран, которые системы, ориентированные на США, пропускают.

Пользовательские институциональные идентификаторы: Здравоохранительные системы используют собственные форматы НМР, идентификаторы сотрудников и коды учреждений, которые не являются частью стандартных данных для обучения NER. Система без поддержки пользовательских типов сущностей не может их обнаружить.

Проблема соблюдения требований к исследовательским наборам данных

Система больницы, создающая де-идентифицированный исследовательский набор данных из 500,000 клинических заметок, сталкивается с комплексным риском. HIPAA требует, чтобы де-идентифицированные исследовательские наборы данных соответствовали стандарту "очень маленького риска" по методу Safe Harbor или статистическому подходу по Экспертному определению. Система, пропускающая 50% PHI, производит набор данных, который не соответствует этому стандарту — подвергая исследовательское учреждение риску принудительных мер со стороны OCR и несоответствия требованиям IRB.

Клинические заметки в исследовательском наборе данных не являются однородными. Они охватывают разные отделы (кардиология, онкология, психиатрия), разные стили документации, разные временные периоды и — в многоязычных здравоохранительных системах — разные языки. Система де-идентификации, которая работает адекватно с структурированными данными по выставлению счетов, может не справиться с неструктурированными психиатрическими отчетами о прогрессе, где PHI появляется в нарративном контексте, а не в помеченных полях.

Требование гибридного обнаружения

Опрос 2025 года выявил последовательный паттерн: системы с самым высоким уровнем извлечения PHI комбинируют структурированное обнаружение идентификаторов (regex для НМР, номеров телефонов) с контекстным NER (модели на основе трансформеров для имен, дат в нарративном контексте) и поддержку пользовательских сущностей (институциональные идентификаторы).

Чистые подходы ML достигают высокого уровня извлечения по общим идентификаторам в хорошо отформатированном тексте, но ухудшаются при работе с сокращениями, редкими типами идентификаторов и текстом на неанглийском языке. Чистые подходы regex достигают высокого уровня извлечения по структурированным идентификаторам, но пропускают контекстную PHI (имя врача, упомянутое в клиническом нарративе без префикса титула).

Гибридная трехуровневая архитектура — regex для структурированных идентификаторов, NLP для контекстной PHI, модели трансформеров для кросс-языковых и сокращенных форм — это паттерн, выявленный опросом как достигающий уровня пропуска менее 5%, подходящего для соблюдения HIPAA Safe Harbor.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.