De-identifikácia podla HIPAA Safe Harbor v masovom merítku: Príručka pre zdravotníckych výskumníkov

Akademické zdravotnícke stredisko potrebuje vymazat 200 000 záznamov o prepustení. Ciel: vybudovat model predikcie opätovných prijatí. Existujúci nástroj stojí 120 000 USD rocne. Rozpocet granta na prácu s údajmi: 5 000 USD.

Táto medzera je bezná. Zdravotnícky výskum potrebuje velké datasety. Tieto datasety obsahuju chránené zdravotné informácie (PHI). PHI zahrnuje mená, dátumy, adresy a alsie osobné údaje. Odstránenie PHI umoznuje výskumníkom legálne pouzívat údaje. Ale nástroje su nacenené pre nemocnicné systémy, nie pre výskumné granty.

HIPAA Safe Harbor: 18 identifikátorov

Metóda HIPAA Safe Harbor (45 CFR §164.514(b)) vymenúva 18 typov PHI. Vsety musia byt odstránené, kým zdravotné údaje stratia status "chránených". Po odstránení môze výskum prebiehat bez súhlasu pacienta.

Tu su vsetkých 18 typov:

Mená
Geografické údaje mensie ako stát (psové smerovacie císla vyzaduju skrátenie na 3 cifry pre malé populácie)
Vsety dátumy okrem roku — prijatia, prepustenia, narodenia, smrti a alsie dátumy
Telefónne císla
Cisla faxu
E-mailové adresy
Císla socialného poistenia
Císla zdravotných záznamov
Císla príjemcov zdravotných plánov
Císla úctov
Císla certifikátov a licencií
Identifikátory a sériové císla vozidiel
Identifikátory a sériové císla zariadení
Webové URL
IP adresy
Biometrické identifikátory (odtlacky prstov, hlasové tlace)
Fotografie celej tváre a podobné obrázky
Akékolvek inéunikatné identifikacné císlo alebo kód

Prvých päáv sa vyskytuje takmer v kazdý zázname o prepustení. Vsety musia byt odstránené alebo zmenené.

Dátumy si vyzaduju osobitú pozornost. Kazdy pacientsky dátum musí uchovat rok, ale stratit konkrétny den a mesiac. "15. marca 2023" sa stáva "2023." Môzete uchovat trvanie ako pole — ale az po odstránení zdrojových dátumov.

Problém masového merítka

Uzitocné zdravotnícke datasety su velké:

Predikcia opätovných prijatí: 50 000–500 000 stretnutí
Práca na výsledkoch liecby: 10 000–100 000 pacientov na stav
Úcinnost liecív: 5 000–50 000 záznamov
Populacné zdravie: 100 000+ stretnutí

Manuálna kontrola v tomto merítku nefunguje. 5-minútová kontrola na záznam trvá 250–2 500 pracovných dní pre 100 000 záznamov. Miery udskej chybovosti su 1–5 %. Dokonca aj malá miera chybovosti vytvára riziko podla HIPAA. Dvaja recenzenti, ktorí rozdielne zaobchádzaju s dátumami, môzu narusit stav Safe Harbor. Na velkom datasete to je ahká chyba.

Automatizované cistenie je jedinou reálnou moznostou. Musí zachytit vsetkých 18 typov napriec roznorodými formátmi v klinických poznámkach.

Cenová medzera nástrojov

Podnikové nástroje cielene na nemocnicné systémy:

Datavant: 100 000+ USD/rok
Veradigm (Allscripts): podobné ceny
Clinithink CLiX: iba kontakt s predajom
Syntegra (syntetické údaje): podnikové cenové modely

Tieto predajcovia predávaju velkým organizáciám s právnymi a compliancovými tímmi. Výskumné granty nie su ich trhom.

Bezplatné a open-source nástroje existuju, ale vyzaduju odbornost:

MITRE MIST: zadarmo, ale potrebuje aze nastavenie a má obmedzenú jazykovú podporu
Stanford NLP DEID: výskumnej kvality, potrebuje Java a programovacie zrucnosti
i2b2 NLP nástroje: klinická NLP, vyzaduje nastavenie

Väcsina výskumníkov potrebuje spolahlivé odstránenie PHI s jednoduchým nastavením. Open-source nástroje potrebuju programovacie a lingvistické zrucnosti na spustenie. Taktiez potrebuju overoviu prácu. Podnikové nástroje stoja viac, ako väcsina grantov umoznuje. Medzera je reálna a blokuje výskum.

Päástupnový dávkový proces

Pre 200 000 záznamov o prepustení dobre funguje sekvenný dávkový prístup.

Krok 1: Export zo systému EHR. Stiahnite strukturované a nestrukturované polia ako textové alebo PDF súbory na stretnutie. Epic, Cerner a Meditech to vsetkí podporuju. Exportuju CSV alebo HL7 súbory so zahrnutými polami klinických poznámok.

Krok 2: Spustite dávky po 5 000. Dávky tejto vekosti su rýchle a dostatocne malé na kontrolu v kazdej fáze.

Nastavte typy entít pre Safe Harbor:

PERSON (mená pacientov, clenovia rodiny v poznámkach)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (adresy, psové smerovacie císla, mestá — cokolvek pod úrovnou státu)
DATE (vsety klinické dátumy; pacienti nad 89 sa stávaju "> 89")
HEALTHCARE_ID (císla poistenia, císla príjemcov)
ACCOUNT_NUMBER

Pre viac informácií o dávkovom cistení PHI pre klinické poznámky pozri dávkové spracovanie klinických poznámok s miestnymi nástrojmi HIPAA. Táto príručka pokrýva formáty súborov a ladenie entít do híbky.

Krok 3: Zaobchádza s dátumami ako so samostatným krokom. Uchova rok. Odstránte mesiac a den. Nahradte vek nad 89 za "> 89." Vzácne páry vek-choroba môzu znovu identifikovat pacientov. Najprv vypocítajte polia trvania — dzdka pobytu, dni do opätovného prijatia. Potom vymázte zdrojové dátumy.

Krok 4: Vzorkujte a kontrolujte kazdu dávku. Po kazdej dávke 5 000 záznamov vytiahnite 50 záznamov na udskú kontrolu. Skontrolujte vsetkych 18 typov. Hladajte kontextové polozky ako mená výskumníkov v poznámkach alebo detaily odkazujúceho lekára. Potvrdte, ze narábanie s dátumami zodpovedá pravidlám Safe Harbor. Pred pokracovaním opravte nezrovnalosti.

Krok 5: Dokumentujte a certifikujte. HIPAA vyzaduje niekoho so statistickými znalosami, aby potvrdil, ze riziko znovu-identifikácie je velmi malé. Pre Safe Harbor to rozhoduje tím, ktorý vykonáva odstránenie. Zapísie konfiguráciu entít a výsledky vzorkovania. Uchovajte ich pre záznamy IRB.

Potrebujete audit trail pre kazde odstránenie? Vysvetlitelná redakcia s auditovacím trailom HIPAA pokrýva logovanie podrobne.

Porovnanie nákladov

Podnikový nástroj: 120 000 USD/rok. Pokrýva nastavenie, skolenie, neobmedzené spracovanie a podporu súladu.

Dávkové spracovanie:

200 000 záznamov x priemerne 300 slov = 60 000 000 tokenov
Pri 0,0001 EUR/token: 6 000 EUR za spracovanie
Plán Pro (180 EUR/rok) alebo Business (348 EUR/rok) pre projekt
Cas kontroly výskumníka: 20–40 hodín
Spolu: pribline 7 000–8 000 EUR

Úspory oproti podnikovému nástroju: 111 000–113 000 USD. Výskum, ktorý sa zastavil na 120 000 USD, sa stáva realizovatelným za 7 000 USD.

Klúcové obmedzenia

Iba text. Tento prístup zvládne textové PHI. Obrázky, audio a biometrické údaje (kategórie Safe Harbor 13, 16 a 17) potrebuju iné nástroje.

Overovanie je nevyhnutné. Automatizované nástroje niektoré polozky prehliadnu. 0,1 % miera chybovosti na 200 000 záznamoch ponechá 200 záznamov so zivm PHI. To je reálne riziko HIPAA. Nepreskakujte overovanie.

Konzultujte s vasím odborom ochrany súkromia. Schválenie IRB pre stúdiu nepokrýva metódu cistenia. Väcsina stredísk posudzuje prístupy k odstráneniu PHI samostatne. Táto príručka doplna toto posúdenie — nenahrádza ho.

Expert Determination je moznosou. HIPAA taktiez umoznuje cistenie prostredníctvom "Expert Determination" (45 CFR §164.514(b)(1)). Statistický expert certifikuje, ze riziko znovu-identifikácie je velmi malé. Táto cesta sa hodí pre neobvyklé datasety. Funguje dobre, ked by odstránenie vsetkých dátumov narusilo casové rady analýzy.

Pre porovnanie automatizovaných nástrojov PHI pozri porovnanie presnosti detekcie PHI.

Záver

Zdravotný výskum, ktorý by mohol pomôct pacientom, je zablokovaný nákladmi na odstránenie PHI. Manuálna kontrola sa neskáluje. Podnikové nástroje stoja viac, ako väcsina grantov umoznuje. Datasety zostávaju uzamknuté alebo nedostatocne vycistené.

Dávkové spracovanie na báze tokenov robí rozsiahly výskum realizovatelným. Akademické strediská a nezávislí výskumníci získaju rovnakú presnost ako velké nemocnicné systémy. V rámci standardného rozpoctu grantu.

Zdroje

Súvisiace články

Zdravotná Starostlivosť

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

Začať bezplatnú skúšobnú verziu Zobraziť funkcie

HIPAA Safe Harbor de-identifikácia v masovom merítku

De-identifikácia podla HIPAA Safe Harbor v masovom merítku: Príručka pre zdravotníckych výskumníkov

HIPAA Safe Harbor: 18 identifikátorov

Problém masového merítka

Cenová medzera nástrojov

Päástupnový dávkový proces

Porovnanie nákladov

Klúcové obmedzenia

Záver

Zdroje

Súvisiace články

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Pripravení chrániť vaše údaje?

HIPAA Safe Harbor de-identifikácia v masovom merítku

De-identifikácia podla HIPAA Safe Harbor v masovom merítku: Príručka pre zdravotníckych výskumníkov

HIPAA Safe Harbor: 18 identifikátorov

Problém masového merítka

Cenová medzera nástrojov

Päástupnový dávkový proces

Porovnanie nákladov

Klúcové obmedzenia

Záver

Zdroje

Súvisiace články

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Pripravení chrániť vaše údaje?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow