HIPAA Деидентификация на Safe Harbor в мащаб: Практическо ръководство за изследователи в здравеопазването
Одобреният от IRB изследователски проект на академичен медицински център изисква деидентификация на 200 000 записа за изписване за модел на ML за прогнозиране на обратно приемане. Съществуващият инструмент за деидентификация HIPAA струва $120 000 на година. Бюджетът за безвъзмездна помощ за изследвания, отпуснат за обработка на данни: $5,000.
Този сценарий е често срещан. Изследванията в областта на здравеопазването генерират ценни прозрения – модели за прогнозиране на реадмисия, проучвания на резултатите от лечението, анализи на ефикасността на лекарствата – които изискват големи, представителни масиви от данни, за да бъдат статистически значими. Тези набори от данни съдържат защитена здравна информация (PHI). Деидентификацията позволява изследвания, като същевременно защитава поверителността на пациента. Но наличните инструменти за деидентификация в мащаб се оценяват за големи болнични системи, а не за изследователски бюджети.
HIPAA Safe Harbor: Какво трябва да се премахне
Методът за деидентификация Safe Harbor на HIPAA (45 CFR §164.514(b)) определя 18 категории PHI, които трябва да бъдат премахнати, преди здравната информация да загуби своя „защитен“ статус и да може да се използва за изследвания без индивидуално разрешение:
- Имена
- Географски данни (всички по-малки от държавата; пощенските кодове изискват съкращаване до 3 цифри за малки популации)
- Дати (без година) — дата на прием, дата на изписване, дата на раждане, дата на смърт, всички други дати
- Телефонни номера
- Номера на факсове
- Имейл адреси
- Социалноосигурителни номера
- Номера на медицински картони
- Номера на бенефициентите на здравния план
- Номера на сметки
- Номера на сертификат/лиценз
- Идентификатори на превозни средства и серийни номера
- Идентификатори на устройства и серийни номера
- Уеб URL адреси
- IP адреси
- Биометрични идентификатори (пръстови отпечатъци, гласови отпечатъци)
- Снимки в анфас и сравними изображения
- Всеки друг уникален идентификационен номер, характеристика или код
Първите 5 идентификатора (имена, географски данни, дати, телефонни номера, номера на факс) се появяват в почти всеки запис за освобождаване от отговорност. Всички те трябва да бъдат премахнати или модифицирани.
Забележка за датите: Това е едно от най-сложните от оперативна гледна точка изисквания на Safe Harbor. Не само датата на раждане — всички дати, свързани с грижите за пациента, трябва да имат запазена година и конкретната дата да бъде премахната или обобщена. Записът за освобождаване от отговорност с дата „15 март 2023 г.“ става „2023 г.“ Продължителността на приема може да се запази като изчислено поле, ако основните дати бъдат премахнати.
Проблемът с мащаба в академичните изследвания
Наборите от изследователски данни, които дават статистически значими констатации в здравеопазването, обикновено изискват:
- Прогноза за реадмисия: 50 000-500 000 срещи с пациенти
- Анализ на резултатите от лечението: 10 000-100 000 пациенти на състояние
- Проучвания за ефикасност на лекарствата: 5 000-50 000 досиета на пациенти
- Анализ на здравето на населението: 100 000+ срещи
Ръчната деидентификация в този мащаб не е осъществима:
- Дори 5-минутен преглед на запис изисква 250-2500 работни дни за 100 000 записа
- Ръчният преглед въвежда нива на човешка грешка от 1-5% - неприемливо за набори от изследователски данни, където дори малък процент от идентифицируеми записи създава HIPAA отговорност
- Непоследователното приложение в набор от данни (един рецензент обработва датите по различен начин от друг) подкопава квалификацията за Safe Harbor
Алтернативата — автоматизирана деидентификация — изисква инструменти, достатъчно сложни, за да открият всичките 18 категории идентификатори в разнообразните формати, намерени в клиничната документация.
Текущ ландшафт на инструментите и разликата в цените
Инструменти за деидентификация на Enterprise HIPAA:
- Datavant: $100 000+/година за големи здравни организации
- Деидентификация на Veradigm (Allscripts): подобни корпоративни цени
- Clinithink CLiX: свържете се с продажните цени
- Syntegra (генериране на синтетични данни): корпоративно ценообразуване
Тези инструменти са предназначени за болнични системи, обработващи милиони записи годишно с екипи за съответствие, правни отдели и възможности за корпоративни доставки. Те не са достъпни за академични изследователи с безвъзмездни бюджети.
Безплатни/опции с отворен код:
- MITRE Identification Scrubber Toolkit (MIST): Безплатно, но изисква значителна техническа настройка и е с ограничена езикова поддръжка
- Stanford NLP DEID: Изследователска степен, изисква опит в Java/програмиране
- i2b2 NLP инструменти: Клинични NLP инструменти, изисква се техническа настройка
Пропускът: Академичните медицински центрове се нуждаят от надеждна, точна деидентификация с минимална техническа настройка. Инструментите с отворен код изискват опит в компютърната лингвистика за конфигуриране и валидиране. Корпоративните инструменти изискват бюджет, който изследователските проекти нямат.
Практически подход: Пакетна обработка в последователни изпълнения
За набор от данни от 200 000 записа за освобождаване от отговорност:
Стъпка 1: Експортиране на данни от EHR Експортирайте полета със структурирани и неструктурирани данни в текстови файлове или PDF записи за среща с пациент. Повечето системи за EHR (Epic, Cerner, Meditech) поддържат експортиране на структурирани данни във формат CSV/HL7 с отделни текстови полета за клинични бележки.
Стъпка 2: Партидна деидентификация при последователни изпълнения Обработвайте на партиди от 5000 записа — достатъчно големи, за да бъдат ефективни, достатъчно малки, за да позволят качествен преглед на всеки етап.
Конфигурирайте типове обекти за HIPAA Safe Harbor:
- PERSON (имена на пациенти, имена на членове на семейството, споменати в бележките)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (географски обекти, по-малки от държавата — адреси, пощенски кодове, градове)
- DATE (всички клинични дати — прилагане на възрастово обобщение: пациентите над 89 стават „над 89“)
- HEALTHCARE_ID (номера на застрахователни членове, номера на бенефициенти)
- ACCOUNT_NUMBER
Стъпка 3: Обработка на дати (специализирано) Фурмите изискват специална обработка освен премахването:
- Запазване на годината
- Премахнете месеца и деня
- За изчисляване на възрастта: ако възрастта е > 89, заменете точната възраст с "> 89", за да предотвратите повторна идентификация чрез редки комбинации възраст-заболяване
- Изчислете полетата за продължителност (продължителност на престоя, дни до обратно приемане) от разликите в датите, след което премахнете оригиналните дати
Тази стъпка може да изисква специализиран скрипт за последваща обработка за изчисляване на извлечените полета преди премахване на дати.
Стъпка 4: Извадка за проверка След всяка партида от 5000 записа, вземете проби от 50 записа за преглед от човек:
- Проверете дали всички 18 категории идентификатори са премахнати
- Проверете за специфични за контекста идентификатори (имена на изследователи в клинични бележки, подробности за препращащия лекар)
- Потвърдете, че обработката на датите е в съответствие с изискванията на Safe Harbor
Стъпка 5: Сертифициране HIPAA изисква лице с подходящи статистически или научни познания да определи вероятността за повторна идентификация е много малка. За Safe Harbor субектът, който прилага отстраняването от 18 категория, удостоверява съответствието. Документирайте своя процес, конфигурация на тип обект и извадка за валидиране за IRB записи.
Анализ на разходите: Изследователски бюджет срещу инструмент за предприятие
Инструмент за деидентификация на Enterprise HIPAA: $120 000/година Включва настройка, обучение, неограничена обработка, поддръжка на документация за съответствие.
Подход за групова обработка:
- 200 000 записа × средно 300 думи/запис = 60 000 000 токена
- При €0,0001/токен: €6000 разходи за обработка
- Професионален план (€180/година) или бизнес план (€348/година) за продължителността на проекта
- Време на изследователя за валидиране: 20-40 часа при цени за постдокторски програми
- Общо: приблизително €7,000-8,000
Годишни спестявания срещу корпоративен инструмент: $111 000-113 000.
Изследването, което беше непосилно скъпо при $120 000, става осъществимо при $7 000 — като бюджетът за безвъзмездни средства покрива както обработката на данни, така и времето на изследователя.
Важни предупреждения
Този подход е подходящ за базирана на текст PHI деидентификация. Изображенията, аудиозаписите и биометричните данни (Safe Harbor категории 13, 16, 17) изискват специализирани инструменти извън обработката на текст.
Изисква се валидиране. Автоматизираните инструменти не са 100% точни. Процент на пропуски от 0,1% при 200 000 записа означава 200 записа с остатъчен PHI — все още значителен HIPAA риск. Стъпката на извадка за валидиране не е по избор.
Офисът за поверителност на вашата институция трябва да прегледа. Одобрението на IRB за изследването не разрешава автоматично подхода за деидентификация. Повечето академични медицински центрове имат служба за поверителност или IRB, която преглежда методологиите за деидентификация. Това ръководство допълва, а не замества институционалния преглед.
Помислете за експертно определяне като алтернатива. HIPAA също позволява деидентификация чрез „Експертно определяне“ (45 CFR §164.514(b)(1)) — статистически експерт, който удостоверява, че рискът от повторно идентифициране е много малък. Този подход може да е по-подходящ за необичайни набори от данни, където категоричното премахване на Safe Harbor създава методологични проблеми (премахването на всички дати прави временния анализ невъзможен).
Заключение
Изследванията в здравеопазването, които биха могли да подобрят резултатите за пациентите, в момента са затруднени от разходите за деидентификация на HIPAA. Когато единствената достъпна опция за академичните изследователи е или ръчно деидентифициране (неосъществимо в мащаб) или скъпи корпоративни инструменти (извън бюджетите за безвъзмездни средства), наборите от изследователски данни остават заключени или неадекватно деидентифицирани.
Пакетната деидентификация чрез ценообразуване, базирано на токени, прави набора от данни за изследване от 200 000 записа икономически осъществим. Същата статистическа точност, достъпна за големите болнични системи, става достъпна за академични медицински центрове, независими изследователи и по-малки здравни организации, ангажирани с изследвания за подобряване на качеството.
Източници:
- HHS: Ръководство относно методите за деидентификация съгласно HIPAA
- HIPAA Safe Harbor: 45 CFR §164.514(b)
- [NIH: Деидентификация на изследователски данни] (https://www.nih.gov/health-information/nih-clinical-research-trials-you/de-identification)