HIPAA Деидентификация без Regex PhD: Създаване на MRN модел с помощта на AI
Форматът на номера на медицинското досие на вашата болница не съществува в нито един стандартен инструмент за лични данни. Ето как да го добавите за 5 минути, без да пишете нито един ред регулярен израз.
ИТ екипите на здравеопазването, прилагащи деидентификация на HIPAA, са изправени пред специфично предизвикателство, което не съществува в други сектори: идентификаторът, който най-много трябва да открият – номерът на медицинския картон – се определя от тяхната собствена институция, а не от национален стандарт.
Резултатът: всяко внедряване на HIPAA деидентификация в здравна система изисква персонализирана конфигурация. Без персонализирана конфигурация MRN преминават незабелязани през „деидентифицирани“ набори от данни.
Многофункционалният MRN хаос
Мрежите за здравеопазване, изградени чрез години на придобиване, съдържат съоръжения с наследени EHR системи — всяка със собствен MRN формат, създаден преди десетилетия:
- Мемориална болница (Epic от 2015 г.): MRN:XXXXXXX (7-цифрен номер с префикс)
- St. Mary's (наследена система Cerner): PT-YYYYY (5 цифри с префикс на пациента)
- Университетска болница (Meditech 6.0): UHN-XXXXXXXXXX (10 буквено-цифрови знака)
- Партньорска клиника (самостоятелна ЕМР): Cd{5} (C, последвано от 5 цифри)
HIPAA Safe Harbor изисква премахване на всичките 18 категории идентификатори, включително „номера на медицински досиета“ (категория 8). Инструмент за деидентификация, който не познава тези формати, ги пропуска изцяло. „Деидентифицираният“ набор от данни съдържа всички MRN за всичките четири формата на съоръженията.
Здравната общност на ServiceNow специално документира тази болезнена точка: ИТ екипите на здравеопазването, които се опитват да идентифицират PHI от работните бележки на HR, откриват, че стандартните Presidio конфигурации откриват SSN и телефонни номера, като същевременно липсват специфични за обекта MRN.
Бариерата на Regex
Изграждането на персонализирани разпознаватели в Microsoft Presidio (основата с отворен код за много HIPAA инструменти) изисква:
- Разбиране на класа PatternRecognizer
- Писане на модели на регулярни изрази в синтаксиса на Python
- Конфигуриране на YAML файлове за регистрация на разпознавателя
- Разбиране на резултатите за увереност и контекстните думи
- Тестване с Python скриптове
- Дебъгване на неуспешни разпознаватели
За здравни ИТ специалисти без опит в Python това създава значителна техническа бариера. Служител по съответствието, който знае точно какъв формат е MRN:XXXXXXX, не може да конфигурира Presidio разпознавател, без да научи Python или да изчака инженерен билет.
Типичният резултат: празнината в съответствието остава отворена, докато инженерният билет стои в опашка от 6-8 седмици.
AI-подпомогнато генериране на шаблони
Алтернативата: опишете модела на ясен език, получете работещ регулярен израз.
Процес:
- Отворете персонализирания създател на обекти
- Дайте примери: „Това изглежда като MRN номера от нашата система: MRN:1234567, MRN:9876543, MRN:0001234“
- AI генерира модел: MRN:d{7}
- Тествайте срещу 10 примерни изписвания
- Открити ли са всички MRN? Запазете и приложете.
За мрежа с множество съоръжения с четири MRN формата:
- Мемориална болница: опишете формата → MRN:d{7}
- St. Mary's: опишете формата → PT-d{5}
- Университетска болница: опишете формата → UHN-[A-Z0-9]{10}
- Партньорска клиника: опишете формата → Cd{5}
Създайте четири потребителски обекта, групирайте в предварително зададена „Откриване на MRN мрежа“, приложете към цялата обработка на документи. Общо време: един следобед работа на служителя по съответствието.
Валидиране за сертификат за безопасно пристанище
Методът Safe Harbor на HIPAA изисква покритият субект „да не разполага с реални познания, че информацията може да се използва самостоятелно или в комбинация с друга информация за идентифициране на физическо лице“.
За персонализирано откриване на базата на обект валидирането демонстрира пълнота:
Стъпка 1: Извличане на проба Изтеглете 100 резюмета за изписване от всеки тип съоръжение. Смесете популации пациенти, отделения и периоди от време.
Стъпка 2: Автоматизирана обработка Изпълнете всичките 400 документа чрез откриването на потребителски обект.
Стъпка 3: Проба за проверка от хора Ръчен преглед на 20 обработени документа (5% извадка). Търсете:
- Всички низове, които изглеждат като MRN, но не са открити (фалшиви отрицания)
- Всички не-MRN низове, които са били неправилно маркирани (фалшиви положителни резултати)
Стъпка 4: Усъвършенстване на модела Ако се открият фалшиви отрицания: прецизирайте шаблона или добавете контекстно съвпадение. Ако фалшивите положителни резултати са многобройни: добавете ограничения на границите на думите или проверка на контекста.
Стъпка 5: Документация Запис: персонализирана дефиниция на обект, размер на извадката за валидиране, резултати от валидиране и дата на валидиране. Тази документация подкрепя сертифицирането на Safe Harbor.
Отвъд MRNs: Пълно HIPAA покритие Safe Harbor
След отстраняване на пропуските в откриването на MRN, прегледайте всички 18 категории Safe Harbor за пълнота:
| Категория | Стандартно откриване | Необходим ли е персонализиран? |
|---|---|---|
| 1. Имена | ✓ NER модел | Не |
| 2. Географски данни | ✓ Откриване на местоположение | Не за състояние; Да за специфични за обекта кодове |
| 3. Дати | ✓ Откриване на дата | Не |
| 4. Телефонни номера | ✓ Откриване на телефон | Не |
| 5. Номера на факс | ✓ Откриване на телефон | Не |
| 6. Имейл адреси | ✓ Откриване на имейл | Не |
| 7. SSN | ✓ Откриване на SSN | Не |
| 8. Номера на медицински досиета | ✗ Не е по подразбиране | Да — специфично за институцията |
| 9. Номера на бенефициентите на здравния план | Частично | Често да — специфичен за превозвача |
| 10. Номера на сметки | Частично | Често да — формат на акаунта за таксуване |
| 11. Номера на сертификати/лицензи | Частично | Често да — DEA + специфично за държавата |
| 12. Идентификатори на превозни средства | Частично | Рядко в клиничните документи |
| 13. Идентификатори на устройства | Частично | Да, ако медицинските изделия са документирани |
| 14. Уеб URL адреси | ✓ URL откриване | Не |
| 15. IP адреси | ✓ IP откриване | Не |
| 16. Биометрични идентификатори | ✗ Текстов контекст | Рядко в обобщенията за освобождаване от отговорност |
| 17. Снимки в анфас | ✗ Само изображение | Извън обхвата за обработка на текст |
| 18. Други уникални идентификатори | ✗ Не е по подразбиране | Да — специфично за институцията |
За обработка на клиничен текст, категории 8, 9, 10 и 18 най-често изискват добавяне на потребителски обект.
Контекстът на клиничната документация
Резюмета за изписване, клинични бележки и оперативни доклади са основните документи, изискващи деидентификация на HIPAA за споделяне на изследвания. Тези документи съдържат:
- MRN в горните и долните колонтитули
- Номера на сметки в секциите за фактуриране
- Дати навсякъде (прием, процедури, лаборатории, лекарства)
- Имена на лекари и номера на DEA
- Информация за препращащия лекар
- Идентификационни номера на застрахователни членове
Персонализирано откриване на обекти за специфични за институцията формати (MRN, номера на сметки), комбинирано със стандартно откриване за универсални формати (дати, имена, телефонни номера) осигурява пълното покритие, което HIPAA Safe Harbor изисква.
Заключение
HIPAA деидентификация без персонализирана конфигурация на обект не е HIPAA деидентификация на Safe Harbor. MRN форматът на всяко здравно заведение е уникален. Стандартните инструменти за PII ги пропускат. Екипите за съответствие не могат да чакат инженерни опашки, за да запълнят тази празнина.
Подпомогнато от изкуствен интелект генериране на модели намалява разликата в съответствието от 6-8 седмици инженерно време до един следобед работа на служител по съответствието. Опишете формата, проверете спрямо мостри, внедрите в производство.
Източници:
- HIPAA Safe Harbor: 45 CFR §164.514(b) — 18 категории идентификатори
- [Общност на ServiceNow: Идентификация на PHI/PII от работните бележки на HR] (https://www.servicenow.com/community/platform-privacy-security-forum/identify-phi-pii-hspii-data-from-hr-work-notes/m-p/2889557)
- [HHS: Ръководство за деидентификация на PHI] (https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/)