Деидентификация HIPAA без PhD по регулярным выражениям: создание шаблонов MRN с помощью ИИ
Формат номера медицинской карты вашей больницы не существует в любом стандартном инструменте PII. Вот как добавить его за 5 минут, не написав ни одной строки регулярного выражения.
Команды ИТ в здравоохранении, реализующие деидентификацию HIPAA, сталкиваются с конкретной проблемой, которая не существует в других секторах: идентификатор, который им больше всего нужно обнаружить — номер медицинской карты — определяется их собственным учреждением, а не каким-либо национальным стандартом.
Результат: каждая реализация деидентификации HIPAA в системе здравоохранения требует индивидуальной настройки. Без индивидуальной настройки MRN проходят через "деидентифицированные" наборы данных незамеченными.
Хаос MRN в многопрофильных учреждениях
Сетевые структуры здравоохранения, созданные за годы поглощений, содержат учреждения с устаревшими системами EHR — каждая из которых имеет свой собственный формат MRN, установленный десятилетия назад:
- Больница Мемориал (Epic с 2015 года): MRN:XXXXXXX (7-значный числовой с префиксом)
- Больница Святой Марии (устаревшая система Cerner): PT-YYYYY (5-значный с префиксом пациента)
- Университетская больница (Meditech 6.0): UHN-XXXXXXXXXX (10-символьный алфавитно-цифровой)
- Аффилированная клиника (независимый EMR): Cd{5} (C, за которым следуют 5 цифр)
Безопасная гавань HIPAA требует удаления всех 18 категорий идентификаторов, включая "номера медицинских карт" (категория 8). Инструмент деидентификации, который не знает этих форматов, полностью их пропускает. "Деидентифицированный" набор данных содержит все MRN для всех четырех форматов учреждений.
Сообщество ServiceNow в области здравоохранения специально документирует эту больную точку: команды ИТ в здравоохранении, пытающиеся идентифицировать PHI из рабочих заметок HR, обнаруживают, что стандартные конфигурации Presidio обнаруживают номера социального страхования и телефонные номера, полностью пропуская специфичные для учреждения MRN.
Барьер регулярных выражений
Создание индивидуальных распознавателей в Microsoft Presidio (открытая основа для многих инструментов HIPAA) требует:
- Понимания класса PatternRecognizer
- Написания шаблонов регулярных выражений в синтаксисе Python
- Настройки файлов YAML для регистрации распознавателя
- Понимания коэффициентов уверенности и контекстных слов
- Тестирования с помощью скриптов Python
- Отладки неудачных распознавателей
Для профессионалов ИТ в здравоохранении без опыта работы с Python это создает значительный технический барьер. Специалист по соблюдению норм, который точно знает, какой формат MRN:XXXXXXX, не может настроить распознаватель Presidio, не изучив Python или не дождавшись инженерного тикета.
Типичный результат: разрыв в соблюдении норм остается открытым, пока инженерный тикет ждет в очереди 6-8 недель.
Генерация шаблонов с помощью ИИ
Альтернатива: опишите шаблон простым языком, получите рабочее регулярное выражение.
Процесс:
- Откройте конструктор пользовательских сущностей
- Приведите примеры: "Вот как выглядят номера MRN из нашей системы: MRN:1234567, MRN:9876543, MRN:0001234"
- ИИ генерирует шаблон: MRN:d{7}
- Протестируйте на 10 образцах выписок
- Все MRN обнаружены? Сохраните и примените.
Для многопрофильной сети с четырьмя форматами MRN:
- Больница Мемориал: опишите формат → MRN:d{7}
- Больница Святой Марии: опишите формат → PT-d{5}
- Университетская больница: опишите формат → UHN-[A-Z0-9]{10}
- Аффилированная клиника: опишите формат → Cd{5}
Создайте четыре пользовательские сущности, сгруппируйте в предустановку "Обнаружение MRN сети", примените ко всем процессам документов. Общее время: один день работы специалиста по соблюдению норм.
Проверка для сертификации безопасной гавани
Метод безопасной гавани HIPAA требует, чтобы покрываемая организация "не имела фактических знаний о том, что информация может быть использована отдельно или в сочетании с другой информацией для идентификации личности."
Для обнаружения на основе пользовательских сущностей проверка демонстрирует полноту:
Шаг 1: Извлечение образцов Выберите 100 выписок из каждого типа учреждения. Смешайте популяции пациентов, отделения и временные периоды.
Шаг 2: Автоматизированная обработка Пропустите все 400 документов через обнаружение пользовательских сущностей.
Шаг 3: Образец проверки человеком Вручную просмотрите 20 обработанных документов (образец 5%). Ищите:
- Любые строки, которые выглядят как MRN, но не были обнаружены (ложные отрицательные)
- Любые не-MRN строки, которые были ошибочно помечены (ложные положительные)
Шаг 4: Уточнение шаблона Если найдены ложные отрицательные: уточните шаблон или добавьте контекстное соответствие. Если ложных положительных много: добавьте ограничения на границы слов или контекстную проверку.
Шаг 5: Документация Запишите: определение пользовательской сущности, размер образца проверки, результаты проверки и дату проверки. Эта документация поддерживает сертификацию безопасной гавани.
За пределами MRN: Полное покрытие безопасной гавани HIPAA
После устранения разрыва в обнаружении MRN проверьте все 18 категорий безопасной гавани на полноту:
| Категория | Стандартное обнаружение | Нужна индивидуальная настройка? |
|---|---|---|
| 1. Имена | ✓ Модель NER | Нет |
| 2. Географические данные | ✓ Обнаружение местоположения | Нет для штата; Да для специфичных для учреждения кодов |
| 3. Даты | ✓ Обнаружение дат | Нет |
| 4. Номера телефонов | ✓ Обнаружение телефонов | Нет |
| 5. Номера факсов | ✓ Обнаружение телефонов | Нет |
| 6. Адреса электронной почты | ✓ Обнаружение электронной почты | Нет |
| 7. Номера социального страхования | ✓ Обнаружение SSN | Нет |
| 8. Номера медицинских карт | ✗ Не в стандартном наборе | Да — специфично для учреждения |
| 9. Номера бенефициаров плана здоровья | Частично | Часто да — специфично для перевозчика |
| 10. Номера счетов | Частично | Часто да — формат счета |
| 11. Номера сертификатов/лицензий | Частично | Часто да — DEA + специфично для штата |
| 12. Идентификаторы транспортных средств | Частично | Редко в клинических документах |
| 13. Идентификаторы устройств | Частично | Да, если задокументированы медицинские устройства |
| 14. Веб-URL | ✓ Обнаружение URL | Нет |
| 15. IP-адреса | ✓ Обнаружение IP | Нет |
| 16. Биометрические идентификаторы | ✗ Контекст текста | Редко в выписках |
| 17. Фотографии с полным лицом | ✗ Только изображение | Вне сферы текстовой обработки |
| 18. Другие уникальные идентификаторы | ✗ Не в стандартном наборе | Да — специфично для учреждения |
Для обработки клинического текста категории 8, 9, 10 и 18 чаще всего требуют добавления пользовательских сущностей.
Контекст клинической документации
Выписки, клинические заметки и операционные отчеты являются основными документами, требующими деидентификации HIPAA для обмена исследованиями. Эти документы содержат:
- MRN в заголовках и подписях
- Номера счетов в разделах выставления счетов
- Даты на протяжении всего текста (поступление, процедуры, лаборатории, лекарства)
- Имена врачей и номера DEA
- Информацию о направляющем враче
- Идентификаторы членов страхования
Обнаружение пользовательских сущностей для специфичных для учреждения форматов (MRN, номера счетов), в сочетании со стандартным обнаружением для универсальных форматов (даты, имена, номера телефонов), обеспечивает полное покрытие, требуемое безопасной гаванью HIPAA.
Заключение
Деидентификация HIPAA без индивидуальной настройки сущностей не является деидентификацией безопасной гавани HIPAA. Формат MRN каждой медицинской организации уникален. Стандартные инструменты PII пропускают их. Команды по соблюдению норм не могут ждать, пока инженерные очереди закроют этот разрыв.
Генерация шаблонов с помощью ИИ сокращает разрыв в соблюдении норм с 6-8 недель инженерного времени до одного дня работы специалиста по соблюдению норм. Опишите формат, проверьте на образцах, внедрите в производство.
Источники: