anonym.legal
Назад към блогаЗдравеопазване

HIPAA Деидентификация без Regex PhD...

MRN форматът на всяка болница е различен. Memorial използва MRN:XXXXXXX, St. Mary's използва PT-YYYYY, University Hospital използва UHN-XXXXXXXXXX.

April 19, 20266 мин. четене
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

HIPAA Деидентификация без Regex PhD: Създаване на MRN модел с помощта на AI

Форматът на номера на медицинското досие на вашата болница не съществува в нито един стандартен инструмент за лични данни. Ето как да го добавите за 5 минути, без да пишете нито един ред регулярен израз.

ИТ екипите на здравеопазването, прилагащи деидентификация на HIPAA, са изправени пред специфично предизвикателство, което не съществува в други сектори: идентификаторът, който най-много трябва да открият – номерът на медицинския картон – се определя от тяхната собствена институция, а не от национален стандарт.

Резултатът: всяко внедряване на HIPAA деидентификация в здравна система изисква персонализирана конфигурация. Без персонализирана конфигурация MRN преминават незабелязани през „деидентифицирани“ набори от данни.

Многофункционалният MRN хаос

Мрежите за здравеопазване, изградени чрез години на придобиване, съдържат съоръжения с наследени EHR системи — всяка със собствен MRN формат, създаден преди десетилетия:

  • Мемориална болница (Epic от 2015 г.): MRN:XXXXXXX (7-цифрен номер с префикс)
  • St. Mary's (наследена система Cerner): PT-YYYYY (5 цифри с префикс на пациента)
  • Университетска болница (Meditech 6.0): UHN-XXXXXXXXXX (10 буквено-цифрови знака)
  • Партньорска клиника (самостоятелна ЕМР): Cd{5} (C, последвано от 5 цифри)

HIPAA Safe Harbor изисква премахване на всичките 18 категории идентификатори, включително „номера на медицински досиета“ (категория 8). Инструмент за деидентификация, който не познава тези формати, ги пропуска изцяло. „Деидентифицираният“ набор от данни съдържа всички MRN за всичките четири формата на съоръженията.

Здравната общност на ServiceNow специално документира тази болезнена точка: ИТ екипите на здравеопазването, които се опитват да идентифицират PHI от работните бележки на HR, откриват, че стандартните Presidio конфигурации откриват SSN и телефонни номера, като същевременно липсват специфични за обекта MRN.

Бариерата на Regex

Изграждането на персонализирани разпознаватели в Microsoft Presidio (основата с отворен код за много HIPAA инструменти) изисква:

  • Разбиране на класа PatternRecognizer
  • Писане на модели на регулярни изрази в синтаксиса на Python
  • Конфигуриране на YAML файлове за регистрация на разпознавателя
  • Разбиране на резултатите за увереност и контекстните думи
  • Тестване с Python скриптове
  • Дебъгване на неуспешни разпознаватели

За здравни ИТ специалисти без опит в Python това създава значителна техническа бариера. Служител по съответствието, който знае точно какъв формат е MRN:XXXXXXX, не може да конфигурира Presidio разпознавател, без да научи Python или да изчака инженерен билет.

Типичният резултат: празнината в съответствието остава отворена, докато инженерният билет стои в опашка от 6-8 седмици.

AI-подпомогнато генериране на шаблони

Алтернативата: опишете модела на ясен език, получете работещ регулярен израз.

Процес:

  1. Отворете персонализирания създател на обекти
  2. Дайте примери: „Това изглежда като MRN номера от нашата система: MRN:1234567, MRN:9876543, MRN:0001234“
  3. AI генерира модел: MRN:d{7}
  4. Тествайте срещу 10 примерни изписвания
  5. Открити ли са всички MRN? Запазете и приложете.

За мрежа с множество съоръжения с четири MRN формата:

  • Мемориална болница: опишете формата → MRN:d{7}
  • St. Mary's: опишете формата → PT-d{5}
  • Университетска болница: опишете формата → UHN-[A-Z0-9]{10}
  • Партньорска клиника: опишете формата → Cd{5}

Създайте четири потребителски обекта, групирайте в предварително зададена „Откриване на MRN мрежа“, приложете към цялата обработка на документи. Общо време: един следобед работа на служителя по съответствието.

Валидиране за сертификат за безопасно пристанище

Методът Safe Harbor на HIPAA изисква покритият субект „да не разполага с реални познания, че информацията може да се използва самостоятелно или в комбинация с друга информация за идентифициране на физическо лице“.

За персонализирано откриване на базата на обект валидирането демонстрира пълнота:

Стъпка 1: Извличане на проба Изтеглете 100 резюмета за изписване от всеки тип съоръжение. Смесете популации пациенти, отделения и периоди от време.

Стъпка 2: Автоматизирана обработка Изпълнете всичките 400 документа чрез откриването на потребителски обект.

Стъпка 3: Проба за проверка от хора Ръчен преглед на 20 обработени документа (5% извадка). Търсете:

  • Всички низове, които изглеждат като MRN, но не са открити (фалшиви отрицания)
  • Всички не-MRN низове, които са били неправилно маркирани (фалшиви положителни резултати)

Стъпка 4: Усъвършенстване на модела Ако се открият фалшиви отрицания: прецизирайте шаблона или добавете контекстно съвпадение. Ако фалшивите положителни резултати са многобройни: добавете ограничения на границите на думите или проверка на контекста.

Стъпка 5: Документация Запис: персонализирана дефиниция на обект, размер на извадката за валидиране, резултати от валидиране и дата на валидиране. Тази документация подкрепя сертифицирането на Safe Harbor.

Отвъд MRNs: Пълно HIPAA покритие Safe Harbor

След отстраняване на пропуските в откриването на MRN, прегледайте всички 18 категории Safe Harbor за пълнота:

КатегорияСтандартно откриванеНеобходим ли е персонализиран?
1. Имена✓ NER моделНе
2. Географски данни✓ Откриване на местоположениеНе за състояние; Да за специфични за обекта кодове
3. Дати✓ Откриване на датаНе
4. Телефонни номера✓ Откриване на телефонНе
5. Номера на факс✓ Откриване на телефонНе
6. Имейл адреси✓ Откриване на имейлНе
7. SSN✓ Откриване на SSNНе
8. Номера на медицински досиета✗ Не е по подразбиранеДа — специфично за институцията
9. Номера на бенефициентите на здравния планЧастичноЧесто да — специфичен за превозвача
10. Номера на сметкиЧастичноЧесто да — формат на акаунта за таксуване
11. Номера на сертификати/лицензиЧастичноЧесто да — DEA + специфично за държавата
12. Идентификатори на превозни средстваЧастичноРядко в клиничните документи
13. Идентификатори на устройстваЧастичноДа, ако медицинските изделия са документирани
14. Уеб URL адреси✓ URL откриванеНе
15. IP адреси✓ IP откриванеНе
16. Биометрични идентификатори✗ Текстов контекстРядко в обобщенията за освобождаване от отговорност
17. Снимки в анфас✗ Само изображениеИзвън обхвата за обработка на текст
18. Други уникални идентификатори✗ Не е по подразбиранеДа — специфично за институцията

За обработка на клиничен текст, категории 8, 9, 10 и 18 най-често изискват добавяне на потребителски обект.

Контекстът на клиничната документация

Резюмета за изписване, клинични бележки и оперативни доклади са основните документи, изискващи деидентификация на HIPAA за споделяне на изследвания. Тези документи съдържат:

  • MRN в горните и долните колонтитули
  • Номера на сметки в секциите за фактуриране
  • Дати навсякъде (прием, процедури, лаборатории, лекарства)
  • Имена на лекари и номера на DEA
  • Информация за препращащия лекар
  • Идентификационни номера на застрахователни членове

Персонализирано откриване на обекти за специфични за институцията формати (MRN, номера на сметки), комбинирано със стандартно откриване за универсални формати (дати, имена, телефонни номера) осигурява пълното покритие, което HIPAA Safe Harbor изисква.

Заключение

HIPAA деидентификация без персонализирана конфигурация на обект не е HIPAA деидентификация на Safe Harbor. MRN форматът на всяко здравно заведение е уникален. Стандартните инструменти за PII ги пропускат. Екипите за съответствие не могат да чакат инженерни опашки, за да запълнят тази празнина.

Подпомогнато от изкуствен интелект генериране на модели намалява разликата в съответствието от 6-8 седмици инженерно време до един следобед работа на служител по съответствието. Опишете формата, проверете спрямо мостри, внедрите в производство.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.