Проблема 50% пропусков
Обзор 2025 года (arXiv:2509.14464) протестировал LLM-инструменты на клинических записях. Результаты оказались неутешительными: эти инструменты пропускали более 50% клинических PHI в многоязычных документах. Причина проста: LLM созданы для генерации текста, а не для задачи высокоохватного обнаружения, которой требует HIPAA.
Safe Harbor по HIPAA перечисляет 18 защищённых типов идентификаторов: имена, даты, телефонные номера, SSN, MRN, идентификаторы планов медицинского страхования, идентификаторы устройств и IP-адреса. Для каждого нужна собственная логика обнаружения.
Клинические записи усложняют задачу. Пример: «Пациент Иван Д., ДР 12.04.67, MRN 1234567, госпитализирован 15.03.24, д-р Смит назначил ЭКГ». Одно предложение — пять защищённых идентификаторов, большинство в сокращённой форме. Модель, настроенная на клинический смысл, нередко проваливает задачу обнаружения.
Что пропускают LLM и почему
LLM-инструменты дают сбои на клинических записях по характерным закономерностям.
Идентификаторы в сокращённой форме: клинические записи используют стенографию: ДР, MRN, Пациент. Модель, настроенная на клинический смысл, может не пометить «Пациент Иван Д.» как имя — обнаружение чувствительных данных требует иной цели.
Контекстно-зависимые даты: не все даты несут одинаковый риск. «Возраст 67» — мягкий маркер. «ДР 12.04.67» — прямой защищённый идентификатор. «15.03.24» как дата госпитализации тоже защищена. Одного сопоставления с паттерном недостаточно.
Неамериканские форматы: Cyberhaven (Q4 2025) установил, что 34,8% всех вводимых данных в ChatGPT содержат конфиденциальную информацию, включая многоязычный PII. В здравоохранении это означает неамериканские идентификаторы записей, региональные форматы дат и местные типы медицинских ID. Американские инструменты стабильно их пропускают.
Пользовательские идентификаторы больниц: больницы используют собственные форматы MRN, идентификаторы персонала и коды подразделений. Они отсутствуют в стандартных обучающих данных NER. Инструмент без поддержки пользовательских сущностей их не найдёт.
Трёхуровневое решение
Обзор 2025 года выявил одну чёткую закономерность: инструменты с наименьшим процентом пропусков использовали три уровня обнаружения.
Первый уровень — регулярные выражения: находят структурированные идентификаторы (SSN, MRN, телефонные номера, идентификаторы планов страхования) — надёжны для фиксированных форматов.
Второй уровень — NER: трансформерные модели находят имена, даты и чувствительные данные в нарративном тексте там, где регулярные выражения бессильны.
Третий уровень — пользовательские сущности: обрабатывают специфичные для учреждения форматы: собственные паттерны MRN, идентификаторы персонала, коды учреждений — ни одна стандартная модель их не покрывает.
Чисто ML-инструменты деградируют на сокращённых формах и неанглоязычном тексте. Чисто регулярные выражения пропускают чувствительные данные без полевой метки. Ни один из подходов в отдельности недостаточен. Только трёхуровневая конструкция достигала показателя пропусков ниже 5% в обзоре — это планка для соответствия HIPAA Safe Harbor.