HIPAA Safe Harbor де-идентификација во голем обем: Водич за истражувачи во здравството
Академски медицински центар треба да исчисти 200.000 записи за отпуштање. Целта: изградба на модел за предвидување на повторно примање. Постоечката алатка чини $120.000 годишно. Буџетот за грант за работа со податоци: $5.000.
Овој јаз е вообичаен. Истражувањето во здравството бара големи сетови на податоци. Тие сетови содржат заштитени здравствени информации (PHI). PHI вклучува имиња, датуми, адреси и други лични детали. Отстранувањето на PHI им овозможува на истражувачите да ги употребат податоците законски. Но алатките се цениети за болнички системи, а не за истражувачки грантови.
HIPAA Safe Harbor: 18 идентификатори
Методот Safe Harbor на HIPAA (45 CFR §164.514(b)) наведува 18 типови PHI. Сите мора да одат пред здравствените податоци да го изгубат статусот "заштитени". По отстранувањето, истражувањето може да продолжи без согласност на пациентот.
Еве ги сите 18 типови:
- Имиња
- Географски податоци помали од државата (поштенските кодови потребно е скратување на 3 цифри за мали популации)
- Сите датуми освен годината — прием, отпуштање, раѓање, смрт и други датуми
- Телефонски броеви
- Факс броеви
- Е-пошта адреси
- Броеви за социјално осигурување
- Броеви на медицински евиденции
- Броеви на корисници на здравствен план
- Броеви на сметки
- Броеви на сертификати и лиценци
- Идентификатори на возила и серијски броеви
- Идентификатори на уреди и серијски броеви
- Веб URL адреси
- IP адреси
- Биометриски идентификатори (отпечатоци, гласовни записи)
- Слики на цело лице и слични слики
- Кој било друг единствен идентификациски број или код
Првите пет се среќаваат во речиси секој запис за отпуштање. Сите мора да бидат отстранети или изменети.
Датумите бараат посебно внимание. Секој датум на пациент мора да ја задржи годината, но да го изгуби конкретниот ден и месец. "15 март 2023" станува "2023". Можете да го задржите траењето како поле — но само откако изворните датуми се отстранети.
Проблемот со обемот
Користни сетови на здравствени податоци се големи:
- Предвидување на повторно примање: 50.000–500.000 средби
- Работа со исходи од третманот: 10.000–100.000 пациенти по состојба
- Ефикасност на лекови: 5.000–50.000 записи
- Здравје на популацијата: 100.000+ средби
Рачниот преглед при овој обем не функционира. Преглед од 5 минути по запис потрошува 250–2.500 работни дена за 100.000 записи. Стапките на грешки кај луѓето се движат 1–5%. Дури и мала стапка на пропуштање создава ризик по HIPAA. Двајца прегледувачи кои третираат датуми различно можат да го нарушат статусот Safe Harbor. Тоа е лесна грешка при голем сет на податоци.
Автоматизираното чистење е единствената реална опција. Мора да ги фати сите 18 типови во различните формати кои се среќаваат во клиничките белешки.
Jазот во цените на алатките
Претприемнички алатки таргетираат болнички системи:
- Datavant: $100.000+/годишно
- Veradigm (Allscripts): слични цени
- Clinithink CLiX: само контакт за продажба
- Syntegra (синтетички податоци): претприемнички цени
Овие добавувачи продаваат на големи организации со правни тимови и тимови за усогласеност. Истражувачките грантови не се нивниот пазар.
Бесплатни алатки и алатки со отворен код постојат, но бараат експертиза:
- MITRE MIST: бесплатно, но бара тешко поставување и има ограничена поддршка за јазици
- Stanford NLP DEID: на ниво на истражување, бара Java и вештини за кодирање
- i2b2 NLP алатки: клинички NLP, потребно поставување
Повеќето истражувачи потребно им е сигурно отстранување на PHI со едноставно поставување. Алатките со отворен код бараат вештини за кодирање и лингвистика за работење. Исто така бараат работа за валидација. Претприемнички алатки чинат повеќе отколку повеќето грантови дозволуваат. Jазот е реален и ја блокира истражувачката работа.
Петстепен пакетен процес
За 200.000 записи за отпуштање, добро функционира секвенцијален пакетен пристап.
Чекор 1: Извоз од EHR. Повлечете ги структурираните и неструктурирани полиња како текстуални или PDF датотеки по средба. Epic, Cerner и Meditech сите го поддржуваат ова. Тие извезуваат CSV или HL7 датотеки со вклучени полиња за клинички белешки.
Чекор 2: Извршувајте пакети од 5.000. Пакети со оваа големина се брзи и доволно мали за преглед на секоја фаза.
Поставете типови субјекти за Safe Harbor:
- PERSON (имиња на пациенти, членови на семејство во белешките)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (адреси, поштенски кодови, градови — сè под ниво на држава)
- DATE (сите клинички датуми; пациенти над 89 стануваат "> 89")
- HEALTHCARE_ID (броеви на осигурување, броеви на корисници)
- ACCOUNT_NUMBER
За повеќе за пакетно чистење PHI за клинички белешки, погледнете ја пакетната обработка на клинички белешки со локални алатки за HIPAA. Тој водич ги покрива форматите на датотеки и прилагодувањето на субјектите во длабочина.
Чекор 3: Ракувајте со датумите како посебен чекор. Задржете ја годината. Отстранете го месецот и денот. Заменете ги годините над 89 со "> 89". Редки парови болест-возраст можат повторно да ги идентификуваат пациентите. Прво пресметајте ги полиња за траење — времетраење на хоспитализација, денови до повторно примање. Потоа избришете ги изворните датуми.
Чекор 4: Земете примерок и прегледајте го секој пакет. По секој пакет од 5.000 записи, повлечете 50 записи за човечки преглед. Проверете ги сите 18 типови. Барајте контекстуални ставки како имиња на истражувачи во белешките или детали за упатувачки лекари. Потврдете дека ракувањето со датумите ги исполнува правилата на Safe Harbor. Поправете ги сите јазови пред да продолжите.
Чекор 5: Документирајте и сертифицирајте. HIPAA бара некој со статистичко знаење да потврди дека ризикот за повторна идентификација е многу мал. За Safe Harbor, тимот кој ја врши отстранувањето ја донесува таа одлука. Запишете ја вашата конфигурација на субјекти и резултатите од земањето примероци. Задржете ги за записите на IRB.
Потребна ви е ревизиска трага за секое отстранување? Разбирлива редакција со ревизиска трага за HIPAA ги покрива дневниците во детали.
Споредба на трошоците
Претприемничка алатка: $120.000/годишно. Покрива поставување, обука, неограничена обработка и поддршка за усогласеност.
Пакетна обработка:
- 200.000 записи × просечно 300 зборови = 60.000.000 токени
- При €0,0001/токен: €6.000 во обработка
- Plan Professional (€180/годишно) или Business (€348/годишно) за проектот
- Преглед на истражувачот: 20–40 часа
- Вкупно: приближно €7.000–8.000
Уштеди во споредба со претприемничката алатка: $111.000–113.000. Истражувањето кое застана при $120.000 станува возможно при $7.000.
Клучни ограничувања
Само текст. Овој пристап ракува со PHI засновано на текст. Слики, аудио и биометриски податоци (категории Safe Harbor 13, 16 и 17) бараат други алатки.
Потребна е валидација. Автоматизираните алатки пропуштаат некои ставки. Стапка на пропуштање од 0,1% при 200.000 записи оставаат 200 записи со живо PHI. Тоа е реален ризик по HIPAA. Не прескокнувајте ја валидацијата.
Проверете со вашата канцеларија за приватност. Одобрувањето на IRB за студијата не го покрива методот за чистење. Повеќето центри посебно ги прегледуваат пристапите за отстранување PHI. Овој водич надополнува таков преглед — не го заменува.
Определувањето на експертот е опција. HIPAA исто така дозволува чистење преку "Определување на експертот" (45 CFR §164.514(b)(1)). Статистички експерт потврдува дека ризикот за повторна идентификација е многу мал. Овој пат одговара за нестандардни сетови на податоци. Функционира добро кога отстранувањето на сите датуми би ја нарушило временската анализа.
За споредба рамо до рамо на автоматизирани PHI алатки, погледнете ја споредбата на точноста за откривање PHI.
Заклучок
Истражувањето во здравството кое може да им помогне на пациентите е заглавено зад трошоците за отстранување на PHI. Рачниот преглед не се скалира. Претприемнички алатки чинат повеќе отколку повеќето грантови дозволуваат. Сетовите на податоци остануваат заклучени или неправилно исчистени.
Пакетната обработка базирана на токени ги прави истражувањата во голем обем возможни. Академските центри и независните истражувачи ја добиваат истата точност како и големите болнички системи. На стандарден буџет за грант.