Распознавание MRN по HIPAA без глубоких знаний регулярных выражений
Формат MRN вашей больницы не предусмотрен ни в одном стандартном инструменте защиты персональных данных. Вот как добавить его за пять минут. Без написания кода.
ИТ-команды здравоохранения сталкиваются с проблемой HIPAA, которой нет в других отраслях. Идентификатор, который больше всего нужно обнаружить, — медицинский номер пациента (MRN) — устанавливается самой больницей. Единого национального стандарта не существует.
Каждый проект деидентификации по HIPAA требует индивидуальной настройки. Без неё MRN проскальзывают сквозь «деидентифицированные» файлы незамеченными.
Проблема множества форматов MRN
Больничные сети, сформированные в результате слияний, имеют унаследованные системы ЭМК с собственным форматом MRN:
- Memorial Hospital (Epic): MRN:XXXXXXX — 7-значное число с префиксом
- St. Mary's (Cerner): PT-YYYYY — 5 цифр с префиксом пациента
- University Hospital (Meditech): UHN-XXXXXXXXXX — 10 знаков в смешанном формате
- Клиника (автономная EMR): C\d{5} — буква C и 5 цифр
Правило Safe Harbor по HIPAA требует удаления всех 18 типов идентификаторов. Категория 8 — медицинские номера записей. Инструмент, не знающий вашего формата, их пропустит. Файл выглядит чистым. Но это не так.
Сообщество ServiceNow в сфере здравоохранения фиксирует именно эту проблему. Стандартные инструменты распознают СНИЛС и номера телефонов. MRN конкретного учреждения они пропускают всегда.
Барьер регулярных выражений
Добавление пользовательских правил в Microsoft Presidio — открытую основу для многих HIPAA-инструментов — требует реальных технических навыков:
- Необходимо знать класс PatternRecognizer
- Нужно писать регулярные выражения на синтаксисе Python
- Требуется настройка YAML-конфигурационных файлов
- Необходима настройка пороговых значений достоверности
- Обязательны тестирование и отладка скриптов на Python
Сотрудник по соответствию, знающий формат MRN, не может справиться с этим самостоятельно. Исправление превращается в задачу для инженеров. Оно ждёт в очереди 6–8 недель. Пробел остаётся открытым.
Генерация шаблонов с помощью ИИ
Есть более быстрый способ. Опишите шаблон простыми словами. Получите готовое регулярное выражение.
Шаги:
- Откройте конструктор пользовательских сущностей
- Приведите примеры: «Наши MRN выглядят так: MRN:1234567, MRN:9876543, MRN:0001234»
- ИИ строит правило: MRN:\d{7}
- Протестируйте на 10 образцах записей
- Все MRN найдены? Сохраните и разверните.
Для сети с четырьмя форматами MRN:
- Memorial Hospital → MRN:\d{7}
- St. Mary's → PT-\d{5}
- University Hospital → UHN-[A-Z0-9]{10}
- Клиника → C\d{5}
Создайте четыре пользовательских сущности. Сгруппируйте их в пресет. Запустите на всех файлах. Время: один рабочий день.
См. настройка распознавания MRN в пайплайнах HIPAA без написания кода — полное практическое руководство.
Валидация для Safe Harbor
Правило Safe Harbor по HIPAA гласит, что охватываемое учреждение не должно иметь «реальных знаний» о том, что данные позволяют идентифицировать человека (45 CFR §164.514(b)).
Валидация подтверждает, что ваши пользовательские правила охватывают все 18 типов идентификаторов.
Шаг 1: Получите образцы. Извлеките 100 записей с каждого объекта. Смешайте временные периоды и отделения.
Шаг 2: Запустите обнаружение. Обработайте все 400 документов с вашими пользовательскими правилами.
Шаг 3: Ручная проверка. Проверьте 20 документов вручную (выборка 5%). Ищите пропущенные MRN и ложные срабатывания.
Шаг 4: Уточните правила. Пропущены MRN? Расширьте шаблон. Слишком много ложных срабатываний? Добавьте границы слов.
Шаг 5: Задокументируйте. Зафиксируйте правило, объём выборки, результаты и дату. Этот журнал — ваш документ Safe Harbor.
См. объяснимое редактирование и аудиторские следы HIPAA — подробнее о том, что документировать.
Полное покрытие Safe Harbor
После исправления обнаружения MRN проверьте все 18 категорий.
| Категория | Стандартные инструменты | Нужна настройка? |
|---|---|---|
| 1. Имена | NER-модель | Нет |
| 2. Географические данные | Обнаружение местоположения | Нет для штата; да — для кодов объектов |
| 3. Даты | Обнаружение дат | Нет |
| 4. Номера телефонов | Обнаружение телефонов | Нет |
| 5. Номера факсов | Обнаружение телефонов | Нет |
| 6. Адреса электронной почты | Обнаружение email | Нет |
| 7. СНИЛС | Обнаружение СНИЛС | Нет |
| 8. Медицинские номера записей | Не встроено | Да — специфично для учреждения |
| 9. Номера членства в планах здравоохранения | Частично | Часто да — специфично для страховщика |
| 10. Номера счетов | Частично | Часто да — формат выставления счётов |
| 11. Номера лицензий | Частично | Часто да — специфично для штата |
| 12. Идентификаторы транспортных средств | Частично | Редко встречается в клинических документах |
| 13. Идентификаторы устройств | Частично | Да, если устройства упомянуты в записях |
| 14. Веб-URL | Обнаружение URL | Нет |
| 15. IP-адреса | Обнаружение IP | Нет |
| 16. Биометрические идентификаторы | Контекст текста | Редко в выписных эпикризах |
| 17. Фотографии | Только изображения | Вне области применения для текста |
| 18. Другие уникальные идентификаторы | Не встроено | Да — специфично для учреждения |
Для клинических текстов категории 8, 9, 10 и 18 чаще всего требуют индивидуальной настройки.
Контекст клинических документов
Выписные эпикризы, клинические записи и операционные отчёты — основные файлы, передаваемые в исследовательских целях. Они содержат:
- MRN в заголовках и нижних колонтитулах
- Номера счетов в разделах выставления счётов
- Даты всех событий — поступления, процедур, лабораторных исследований, приёма препаратов
- Имена врачей и номера DEA
- Информацию о направляющем враче
- Идентификаторы членства в страховых компаниях
Пользовательские правила для специфичных форматов учреждения в сочетании со встроенными правилами для стандартных форматов обеспечивают полное покрытие Safe Harbor.
Заключение
Деидентификация по HIPAA без пользовательских правил — это не деидентификация в рамках Safe Harbor. Формат MRN уникален в каждой больнице. Стандартные инструменты их пропускают. Пробел в соответствии реален и остаётся открытым, пока вы его не закроете.
Генерация шаблонов с помощью ИИ сокращает сроки исправления с 6–8 недель инженерных работ до одного рабочего дня работы по соответствию. Опишите формат. Протестируйте на реальных записях. Разверните. Готово.