HIPAA Safe Harbor деидентификация в мащаб: Ръководство за здравни изследователи
Академичен медицински център трябва да изчисти 200 000 записа за изписване. Целта: изграждане на модел за прогнозиране на повторни хоспитализации. Съществуващият инструмент струва 120 000 долара годишно. Бюджетът на безвъзмездната помощ за работа с данни: 5 000 долара.
Тази пропаст е обичайна. Здравните изследвания изискват големи набори данни. Тези набори данни съдържат защитена здравна информация (PHI). PHI включва имена, дати, адреси и други лични данни. Премахването на PHI позволява на изследователите да използват данните законно. Но инструментите са ценообразувани за болнични системи, не за изследователски безвъзмездни помощи.
HIPAA Safe Harbor: 18-те идентификатора
Методът на HIPAA Safe Harbor (45 CFR §164.514(b)) изброява 18 типа PHI. Всички трябва да бъдат премахнати, преди здравните данни да загубят "защитения" си статус. След премахването изследванията могат да продължат без съгласие на пациента.
Ето всичките 18 типа:
- Имена
- Географски данни по-малки от щата (пощенските кодове трябва да се съкратят до 3 цифри за малки популации)
- Всички дати с изключение на годината — приемане, изписване, раждане, смърт и други дати
- Телефонни номера
- Факс номера
- Имейл адреси
- Социалноосигурителни номера
- Номера на медицински досиета
- Номера на бенефициери на здравни планове
- Номера на акаунти
- Номера на сертификати и лицензи
- Идентификатори на превозни средства и серийни номера
- Идентификатори на устройства и серийни номера
- URL адреси
- IP адреси
- Биометрични идентификатори (пръстови отпечатъци, гласови отпечатъци)
- Снимки на цялото лице и подобни изображения
- Всеки друг уникален идентификационен номер или код
Първите пет се появяват в почти всеки запис за изписване. Всички трябва да бъдат премахнати или променени.
Датите изискват специално внимание. Всяка дата на пациент трябва да запази годината, но да загуби конкретния ден и месец. "15 март 2023 г." става "2023 г." Можете да запазите продължителността като поле — но само след като изходните дати са изчезнали.
Проблемът с мащаба
Полезните здравни набори данни са големи:
- Прогнозиране на повторни хоспитализации: 50 000–500 000 срещи
- Проучвания на резултатите от лечение: 10 000–100 000 пациента на състояние
- Ефикасност на лекарства: 5 000–50 000 записа
- Популационно здраве: 100 000+ срещи
Ръчният преглед в такъв мащаб не работи. 5-минутен преглед на запис изисква 250–2 500 работни дни за 100 000 записа. Процентите на човешка грешка варират от 1 до 5%. Дори малък процент на пропуски създава риск по HIPAA. Двама проверяващи, третиращи датите по различен начин, могат да нарушат статуса на Safe Harbor. Това е лесна грешка при голям набор данни.
Автоматизираното изчистване е единствената реална опция. То трябва да улавя всичките 18 типа в различните формати, намирани в клиничните бележки.
Пропастта в ценообразуването на инструментите
Корпоративните инструменти са насочени към болнични системи:
- Datavant: 100 000+ долара/година
- Veradigm (Allscripts): подобни цени
- Clinithink CLiX: само свържете се с отдел продажби
- Syntegra (синтетични данни): корпоративно ценообразуване
Тези доставчици продават на големи организации с правни екипи и екипи за съответствие. Изследователските безвъзмездни помощи не са техният пазар.
Съществуват безплатни и отворено-кодови инструменти, но изискват опит:
- MITRE MIST: безплатен, но изисква тежка настройка и има ограничена езикова поддръжка
- Stanford NLP DEID: изследователско ниво, изисква Java и умения за програмиране
- i2b2 NLP инструменти: клинична NLP, изисква настройка
Повечето изследователи се нуждаят от надеждно премахване на PHI с проста настройка. Инструментите с отворен код изискват умения по програмиране и лингвистика за работа. Те изискват и работа по валидиране. Корпоративните инструменти струват повече от повечето безвъзмездни помощи. Пропастта е реална и блокира изследванията.
Петстъпков пакетен процес
За 200 000 записа за изписване, последователен пакетен подход работи добре.
Стъпка 1: Експортиране от EHR. Изтеглете структурирани и неструктурирани полета като текстови или PDF файлове на среща. Epic, Cerner и Meditech всички поддържат това. Те експортират CSV или HL7 файлове с включени полета за клинични бележки.
Стъпка 2: Изпълнявайте пакети от 5 000. Пакети с такъв размер са бързи и достатъчно малки за преглед на всеки етап.
Задайте типовете обекти за Safe Harbor:
- PERSON (имена на пациенти, членове на семейството в бележките)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (адреси, пощенски кодове, градове — всичко под нивото на щата)
- DATE (всички клинични дати; пациенти над 89 стават "> 89")
- HEALTHCARE_ID (номера на застраховки, номера на бенефициери)
- ACCOUNT_NUMBER
За повече относно пакетното изчистване на PHI за клинични бележки, вж. batch processing clinical notes with local HIPAA tools. Това ръководство покрива файловите формати и настройката на обекти в дълбочина.
Стъпка 3: Обработете датите като отделна стъпка. Запазете годината. Премахнете месеца и деня. Заменете всяка възраст над 89 с "> 89". Редки двойки възраст-болест могат да реидентифицират пациентите. Изчислете полетата за продължителност първо — продължителност на престоя, дни до повторна хоспитализация. След това изтрийте изходните дати.
Стъпка 4: Вземете проби и прегледайте всеки пакет. След всеки пакет от 5 000 записа, изтеглете 50 записа за преглед от хора. Проверете всичките 18 типа. Потърсете контекстни елементи като имена на изследователи в бележки или данни за насочващи лекари. Потвърдете, че обработката на датите съответства на правилата на Safe Harbor. Поправете всякакви пропуски преди да продължите.
Стъпка 5: Документирайте и сертифицирайте. HIPAA изисква лице с статистически знания да потвърди, че рискът от реидентификация е много малък. За Safe Harbor, екипът, извършващ премахването, взема това решение. Напишете конфигурацията на обектите и резултатите от вземането на проби. Пазете ги за записите на ИРБ.
Имате нужда от одитна следа за всяко премахване? Explainable redaction with HIPAA audit trail покрива регистрирането в подробности.
Сравнение на разходите
Корпоративен инструмент: 120 000 долара/година. Покрива настройка, обучение, неограничена обработка и поддръжка за съответствие.
Пакетна обработка:
- 200 000 записа x 300 думи средно = 60 000 000 токена
- При 0,0001 евро/токен: 6 000 евро за обработка
- Pro план (180 евро/година) или Business план (348 евро/година) за проекта
- Изследователско работно време за преглед: 20–40 часа
- Общо: приблизително 7 000–8 000 евро
Спестявания спрямо корпоративния инструмент: 111 000–113 000 долара. Изследвания, спрени при 120 000 долара, стават осъществими при 7 000 долара.
Ключови ограничения
Само текст. Този подход обработва текстово базирана PHI. Изображения, аудио и биометрични данни (категории 13, 16 и 17 на Safe Harbor) изискват други инструменти.
Необходимо е валидиране. Автоматизираните инструменти пропускат някои елементи. Процент на пропуски от 0,1% на 200 000 записа оставя 200 записа с живо PHI. Това е реален риск по HIPAA. Не пропускайте валидирането.
Консултирайте се с офиса по поверителност. Одобрението на ИРБ за изследването не покрива метода за изчистване. Повечето центрове преглеждат подходите за премахване на PHI отделно. Това ръководство добавя към този преглед — не го замества.
Expert Determination е опция. HIPAA позволява също изчистване чрез "Expert Determination" (45 CFR §164.514(b)(1)). Статистически експерт сертифицира, че рискът от реидентификация е много малък. Този път е подходящ за необичайни набори данни. Работи добре, когато премахването на всички дати би нарушило анализа на времеви редове.
За паралелен поглед на автоматизираните PHI инструменти, вж. PHI detection accuracy comparison.
Заключение
Здравните изследвания, които биха могли да помогнат на пациентите, са блокирани от разходите за премахване на PHI. Ръчният преглед не се мащабира. Корпоративните инструменти струват повече от повечето безвъзмездни помощи. Наборите данни остават заключени или неправилно изчистени.
Токен-базираната пакетна обработка прави мащабните изследвания осъществими. Академичните центрове и независимите изследователи получават същата точност като големите болнични системи. В рамките на стандартен бюджет за безвъзмездна помощ.