Проблема 50% пропусков

Обзор 2025 года (arXiv:2509.14464) протестировал LLM-инструменты на клинических записях. Результаты оказались неутешительными: эти инструменты пропускали более 50% клинических PHI в многоязычных документах. Причина проста: LLM созданы для генерации текста, а не для задачи высокоохватного обнаружения, которой требует HIPAA.

Safe Harbor по HIPAA перечисляет 18 защищённых типов идентификаторов: имена, даты, телефонные номера, SSN, MRN, идентификаторы планов медицинского страхования, идентификаторы устройств и IP-адреса. Для каждого нужна собственная логика обнаружения.

Клинические записи усложняют задачу. Пример: «Пациент Иван Д., ДР 12.04.67, MRN 1234567, госпитализирован 15.03.24, д-р Смит назначил ЭКГ». Одно предложение — пять защищённых идентификаторов, большинство в сокращённой форме. Модель, настроенная на клинический смысл, нередко проваливает задачу обнаружения.

Что пропускают LLM и почему

LLM-инструменты дают сбои на клинических записях по характерным закономерностям.

Идентификаторы в сокращённой форме: клинические записи используют стенографию: ДР, MRN, Пациент. Модель, настроенная на клинический смысл, может не пометить «Пациент Иван Д.» как имя — обнаружение чувствительных данных требует иной цели.

Контекстно-зависимые даты: не все даты несут одинаковый риск. «Возраст 67» — мягкий маркер. «ДР 12.04.67» — прямой защищённый идентификатор. «15.03.24» как дата госпитализации тоже защищена. Одного сопоставления с паттерном недостаточно.

Неамериканские форматы: Cyberhaven (Q4 2025) установил, что 34,8% всех вводимых данных в ChatGPT содержат конфиденциальную информацию, включая многоязычный PII. В здравоохранении это означает неамериканские идентификаторы записей, региональные форматы дат и местные типы медицинских ID. Американские инструменты стабильно их пропускают.

Пользовательские идентификаторы больниц: больницы используют собственные форматы MRN, идентификаторы персонала и коды подразделений. Они отсутствуют в стандартных обучающих данных NER. Инструмент без поддержки пользовательских сущностей их не найдёт.

Трёхуровневое решение

Обзор 2025 года выявил одну чёткую закономерность: инструменты с наименьшим процентом пропусков использовали три уровня обнаружения.

Первый уровень — регулярные выражения: находят структурированные идентификаторы (SSN, MRN, телефонные номера, идентификаторы планов страхования) — надёжны для фиксированных форматов.

Второй уровень — NER: трансформерные модели находят имена, даты и чувствительные данные в нарративном тексте там, где регулярные выражения бессильны.

Третий уровень — пользовательские сущности: обрабатывают специфичные для учреждения форматы: собственные паттерны MRN, идентификаторы персонала, коды учреждений — ни одна стандартная модель их не покрывает.

Чисто ML-инструменты деградируют на сокращённых формах и неанглоязычном тексте. Чисто регулярные выражения пропускают чувствительные данные без полевой метки. Ни один из подходов в отдельности недостаточен. Только трёхуровневая конструкция достигала показателя пропусков ниже 5% в обзоре — это планка для соответствия HIPAA Safe Harbor.

Связанные статьи

Здравоохранение

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

Начать бесплатный пробный период Посмотреть функции

LLM пропускают 50% клинических PHI

Проблема 50% пропусков

Что пропускают LLM и почему

Трёхуровневое решение

Связанные статьи

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Готовы защитить ваши данные?

LLM пропускают 50% клинических PHI

Проблема 50% пропусков

Что пропускают LLM и почему

Трёхуровневое решение

Связанные статьи

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Готовы защитить ваши данные?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow