Обновлено для 2026 года
Деидентификация по HIPAA Safe Harbor: обнаружение специфичных для больниц форматов MRN без привлечения разработчиков
HIPAA Safe Harbor требует удаления номеров медицинских карт. Это один из 18 обязательных типов идентификаторов. Звучит просто. Проблема в том, что форматы MRN не стандартизированы.
Epic использует один формат. Cerner — другой. Meditech — третий. Каждая больница добавляет собственные коды. Региональные медицинские объединения создают ещё больше форматов. Стандартный инструмент для работы с ПДн не может знать ваш формат. Он пропустит ваши MRN.
Это нетривиальный риск. IT-команды в сфере здравоохранения нередко обнаруживают MRN в наборах данных, которые должны были быть деидентифицированы. Инструмент был настроен только на распространённые типы ПДн.
Проблема форматов MRN
В США нет национального стандарта для номеров медицинских карт. Каждая больница или поставщик EHR определяет свой формат.
Распространённые паттерны:
- Формат Epic: 8–12 цифровых знаков (например, 123456789).
- Формат Cerner: префикс кода больницы + числовая часть (например, MGH-987654).
- Региональные сети: код учреждения + год + порядковый номер (например, HOSP-2023-456789).
- Система ветеранов (VA): 9 цифр с контрольной цифрой.
- Педиатрические системы: префикс типа пациента + числовая часть (например, PED-12345678).
Ни одно единое правило не охватывает все эти варианты. Универсального паттерна MRN не существует.
Что обнаруживают стандартные инструменты для работы с ПДн: большинство инструментов HIPAA ориентированы на идентификаторы с фиксированным форматом. Номера SSN выглядят как XXX-XX-XXXX. Номера телефонов — как XXX-XXX-XXXX. Адреса электронной почты имеют чёткую структуру. Их легко обнаружить.
MRN, номера счетов и номера лицензий — типы HIPAA 8, 10 и 11 — варьируются в зависимости от больницы. Они требуют индивидуальной настройки. Универсальный инструмент их не обнаружит.
Пробел в соответствии
Региональная больница хочет передать данные пациентов партнёру-исследователю из университета. Их EHR использует формат MRN: HOSP-YYYY-XXXXXX.
Они прогоняют данные через свой HIPAA-инструмент. Инструмент удаляет имена, даты, номера телефонов и SSN. MRN он не удаляет. HOSP-2023-456789 не соответствует ни одному встроенному правилу.
Исследователь получает датасет. Он сопоставляет его со своими записями. Те записи содержат MRN из прошлых направлений той же больницы. Многих пациентов теперь можно повторно идентифицировать. Больница допустила нарушение HIPAA.
Это реальный сценарий. Дополнительно о том, где рушится Safe Harbor, см. в материале о деидентификации по HIPAA Safe Harbor для медицинских исследований.
Решение: создание пользовательской сущности
Решение — определить формат вашего MRN как пользовательскую сущность. Это может сделать специалист по соответствию. Участие разработчиков не требуется.
Шаги:
-
Опишите формат: «Начинается с HOSP, затем дефис, 4-значный год, дефис и 6-значное число».
-
Используйте инструмент ИИ для создания регулярного выражения: HOSP-\d{4}-\d{6}
-
Протестируйте на 20 выписных эпикризах. Убедитесь, что все MRN обнаружены.
-
Сохраните как пользовательскую сущность под названием «MRN больницы».
-
Добавьте её в пресет HIPAA рядом со стандартными 17 типами идентификаторов.
Этот процесс занимает у специалиста по соответствию около 3 дней. Написание специализированного кода может занять 3 месяца.
Пример: сеть из 15 медицинских учреждений
Организация: региональная сеть больниц из 15 учреждений.
Формат MRN: HOSP-YYYY-XXXXXX (в тысячах выписных эпикризов в формате PDF).
Цель: передать исследовательский датасет партнёру из университета по соглашению об использовании данных HIPAA.
Прежний подход: внешний поставщик услуг деидентификации за $120 000 в год.
Обнаруженный пробел: инструмент поставщика не обнаруживал специфичный для учреждения формат MRN.
Новый рабочий процесс:
- Специалист по соответствию определяет паттерн MRN — 20 минут.
- ИИ валидирует регулярное выражение — 5 минут.
- Тестирование на 50 образцах эпикризов — 30 минут.
- Проверка отсутствия MRN и ложных срабатываний — 10 минут.
- Добавление пользовательской сущности в пресет HIPAA.
- Пакетная обработка 50 000 записей.
Общее время для устранения пробела: один день.
Сети с несколькими учреждениями: несколько форматов MRN
Больничные сети, сформированные через слияния, нередко работают с несколькими EHR-системами. Каждая унаследованная система может использовать свой формат MRN.
Как с этим справиться:
Создайте отдельную пользовательскую сущность для каждого формата:
- «Формат MRN A (Epic)» — 8-значное число.
- «Формат MRN B (унаследованный Cerner)» — префикс + 7-значное число.
- «Формат MRN C (приобретённый филиал)» — код штата + год + порядковый номер.
Один пресет содержит все три пользовательские сущности плюс стандартные типы идентификаторов HIPAA. Из каждого документа каждого учреждения MRN будут удалены.
Подробное пошаговое руководство по такой многоформатной настройке см. в материале об обнаружении пользовательских форматов MRN в конвейерах HIPAA без написания кода.
Помимо MRN: другие нестандартные идентификаторы
Тот же подход работает для других типов идентификаторов по HIPAA Safe Harbor.
Номера участников планов медицинского страхования (категория 9): каждый страховщик использует свой формат. Aetna, Blue Cross и United Healthcare выглядят по-разному. Команда выставления счетов нуждается в пользовательском паттерне для каждого плательщика.
Номера счетов (категория 10): номера счетов больницы различаются в зависимости от учреждения.
Номера лицензий (категория 11): номера DEA имеют стандартный федеральный формат. Номера медицинских лицензий штатов — нет. Каждый орган лицензирования штата использует свой формат.
Идентификаторы медицинских устройств (категория 14): серийные номера медицинских устройств устанавливаются каждым производителем.
Для каждого из этих случаев пользовательская сущность закрывает пробел. Разработчики не нужны.
Дополнительно о нестандартных типах идентификаторов см. в материале о пользовательских идентификаторах ПДн для анонимизации в организациях.
Валидация: подтверждение соответствия Safe Harbor
HIPAA Safe Harbor требует, чтобы у организации не было «фактических знаний» о возможности идентификации лица (45 CFR §164.514(b)(1)).
Валидация пользовательских сущностей подтверждает покрытие всех 18 типов идентификаторов.
Шаги валидации:
- Обработайте 50–100 образцов документов из исследовательского датасета.
- Проверьте результат — есть ли что-либо похожее на идентификатор?
- Выполните второй проход обнаружения для выявления пропущенных элементов.
- Задокументируйте проделанную работу.
Настройка пользовательских сущностей, проверка образцов и журналы обработки формируют вашу запись о Safe Harbor.
Заключение
Стандартные инструменты для работы с ПДн в настройках по умолчанию не завершают деидентификацию по HIPAA Safe Harbor. Номера медицинских карт специфичны для каждой больницы. Они требуют специализированного обнаружения.
Создание пользовательской сущности устраняет этот пробел за несколько часов. Специалисты по соответствию могут самостоятельно определить паттерн, протестировать его и обработать данные. Инженерные работы не требуются.
Разрыв между «мы запустили HIPAA-инструмент» и «мы удалили все 18 идентификаторов Safe Harbor» зачастую обусловлен всего одной отсутствующей пользовательской сущностью.