De-identifikace HIPAA Safe Harbor ve velkém měřítku: Průvodce pro zdravotnické výzkumníky

Akademické medicínské centrum potřebuje anonymizovat 200 000 propouštěcích záznamů. Cíl: sestavit predikční model readmisí. Stávající nástroj stojí 120 000 USD ročně. Grantový rozpočet na datovou práci: 5 000 USD.

Tato mezera je běžná. Zdravotnický výzkum potřebuje velké datové sady. Tyto datové sady obsahují chráněné zdravotní informace (PHI). PHI zahrnuje jména, data, adresy a další osobní údaje. Odstranění PHI umožňuje výzkumníkům data legálně používat. Nástroje jsou však oceněny pro nemocniční systémy, nikoli výzkumné granty.

HIPAA Safe Harbor: 18 identifikátorů

Metoda Safe Harbor HIPAA (45 CFR §164.514(b)) uvádí 18 typů PHI. Všechny musí být odstraněny, než zdravotní data ztratí svůj „chráněný“ status. Po odstranění může výzkum probíhat bez souhlasu pacientů.

Zde je všech 18 typů:

Jména
Geografické údaje menší než stát (PSČ musí být zkrácena na 3 číslice pro malé populace)
Všechna data kromě roku — přijetí, propuštění, narození, smrt a jiná data
Telefonní čísla
Čísla faxů
E-mailové adresy
Čísla sociálního pojištění
Čísla zdravotní dokumentace
Čísla příjemců zdravotního plánu
Čísla účtů
Čísla certifikátů a licencí
Identifikátory vozidel a sériová čísla
Identifikátory zařízení a sériová čísla
Webové adresy URL
IP adresy
Biometrické identifikátory (otisky prstů, hlasové záznamy)
Fotografie obličeje a podobné snímky
Jakékoli jiné jedinečné identifikační číslo nebo kód

Prvních pět se vyskytuje téměř v každém propouštěcím záznamu. Všechna musí být odstraněna nebo změněna.

Data vyžadují zvláštní péči. Každé datum pacienta musí zachovat rok, ale ztratit konkrétní den a měsíc. „15. března 2023“ se stane „2023.“ Jako pole si můžete ponechat trvání — ale pouze poté, co jsou zdrojová data pryč.

Problém měřítka

Užitečné zdravotnické datové sady jsou velké:

Predikce readmisí: 50 000–500 000 setkání
Práce s výsledky léčby: 10 000–100 000 pacientů na stav
Účinnost léků: 5 000–50 000 záznamů
Zdraví populace: 100 000+ setkání

Ruční přezkum v tomto měřítku nefunguje. Pětaminutový přezkum na záznam zabere 250–2 500 pracovních dní pro 100 000 záznamů. Míry lidských chyb se pohybují od 1 do 5 %. I malá míra chyb vytváří riziko HIPAA. Dva recenzenti, kteří s daty nakládají odlišně, mohou narušit status Safe Harbor. To je na velké datové sadě snadná chyba.

Automatizované čištění je jedinou reálnou možností. Musí zachytit všech 18 typů napříč různými formáty vyskytujícími se v klinických poznámkách.

Cenová mezera v nástrojích

Podnikové nástroje cílí na nemocniční systémy:

Datavant: 100 000+ USD/rok
Veradigm (Allscripts): podobné ceny
Clinithink CLiX: pouze na vyžádání
Syntegra (syntetická data): podnikové ceny

Tito prodejci prodávají velkým organizacím s právními a compliance týmy. Výzkumné granty nejsou jejich trhem.

Existují bezplatné a open-source nástroje, ale vyžadují odbornost:

MITRE MIST: zdarma, ale vyžaduje rozsáhlé nastavení a má omezenou jazykovou podporu
Stanford NLP DEID: výzkumné kvality, vyžaduje Java a programátorské dovednosti
i2b2 NLP nástroje: klinické NLP, vyžaduje nastavení

Většina výzkumníků potřebuje spolehlivé odstranění PHI s jednoduchým nastavením. Open-source nástroje vyžadují programátorské a lingvistické dovednosti k provozu. Vyžadují také validační práci. Podnikové nástroje stojí více, než většina grantů umožňuje. Mezera je reálná a blokuje výzkum.

Pěti krokový dávkový proces

Pro 200 000 propouštěcích záznamů funguje dobře sekvenční dávkový přístup.

Krok 1: Export z EHR. Vytáhněte strukturovaná i nestrukturovaná pole jako textové nebo PDF soubory na setkání. Epic, Cerner a Meditech to vše podporují. Exportují soubory CSV nebo HL7 s poli klinických poznámek.

Krok 2: Spouštějte dávky po 5 000. Dávky této velikosti jsou rychlé a dostatečně malé pro přezkum v každé fázi.

Nastavte typy entit pro Safe Harbor:

PERSON (jména pacientů, rodinní příslušníci v poznámkách)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (adresy, PSČ, města — cokoli pod úrovní státu)
DATE (všechna klinická data; pacienti starší 89 let se stanou „> 89“)
HEALTHCARE_ID (čísla pojištění, čísla příjemců)
ACCOUNT_NUMBER

Pro více informací o dávkovém čištění PHI z klinických poznámek viz dávkové zpracování klinických poznámek s lokálními nástroji HIPAA. Tento průvodce podrobně pokrývá formáty souborů a ladění entit.

Krok 3: Zpracujte data jako samostatný krok. Uchovejte rok. Odstraňte měsíc a den. Nahraďte jakýkoli věk nad 89 let „> 89.“ Vzácné páry věk-nemoc mohou re-identifikovat pacienty. Nejprve vypočítejte pole trvání — délku pobytu, dny do readmise. Poté odstraňte zdrojová data.

Krok 4: Vzorkujte a přezkoumávejte každou dávku. Po každé dávce 5 000 záznamů vytáhněte 50 záznamů k lidskému přezkumu. Zkontrolujte všech 18 typů. Hledejte kontextové položky, jako jsou jména výzkumníků v poznámkách nebo podrobnosti o odesílajícím lékaři. Potvrďte, že nakládání s daty odpovídá pravidlům Safe Harbor. Před pokračováním napravte veškeré mezery.

Krok 5: Zdokumentujte a certifikujte. HIPAA vyžaduje, aby někdo se statistickými znalostmi potvrdil, že riziko re-identifikace je velmi malé. Pro Safe Harbor toto rozhodnutí dělá tým provádějící odstranění. Zdokumentujte svou konfiguraci entit a výsledky vzorkování. Uchovávejte je pro záznamy IRB.

Potřebujete auditní stopu pro každé odstranění? Vysvětlitelná anonymizace s auditní stopou HIPAA podrobně pokrývá protokolování.

Srovnání nákladů

Podnikový nástroj: 120 000 USD/rok. Zahrnuje nastavení, školení, neomezené zpracování a podporu souladu s předpisy.

Dávkové zpracování:

200 000 záznamů × průměr 300 slov = 60 000 000 tokenů
Při 0,0001 EUR/token: 6 000 EUR za zpracování
Plán Pro (180 EUR/rok) nebo Business (348 EUR/rok) pro projekt
Čas přezkumu výzkumníkem: 20–40 hodin
Celkem: přibližně 7 000–8 000 EUR

Úspory oproti podnikovému nástroji: 111 000–113 000 USD. Výzkum, který se zastavil na 120 000 USD, je uskutečnitelný za 7 000 USD.

Klíčová omezení

Pouze text. Tento přístup zpracovává textové PHI. Obrázky, zvuk a biometrická data (kategorie Safe Harbor 13, 16 a 17) vyžadují jiné nástroje.

Validace je povinná. Automatizované nástroje někdy položky přehlédnou. Míra chyb 0,1 % na 200 000 záznamů ponechá 200 záznamů s živými PHI. To je reálné riziko HIPAA. Validaci nepřeskakujte.

Konzultujte s vaším oddělením ochrany soukromí. Schválení IRB pro studii nepokrývá metodu čištění. Většina center přezkoumává přístupy k odstranění PHI samostatně. Tento průvodce tento přezkum doplňuje — nenahrazuje ho.

Odborné posouzení je možností. HIPAA také umožňuje čištění prostřednictvím „Odborného posouzení“ (45 CFR §164.514(b)(1)). Statistický odborník certifikuje, že riziko re-identifikace je velmi malé. Tato cesta se hodí pro neobvyklé datové sady. Funguje dobře, když by odstranění všech dat narušilo analýzu časových řad.

Pro srovnání automatizovaných nástrojů PHI vedle sebe viz srovnání přesnosti detekce PHI.

Závěr

Zdravotnický výzkum, který by mohl pomoci pacientům, uvízl za náklady na odstranění PHI. Ruční přezkum se neškáluje. Podnikové nástroje stojí více, než většina grantů umožňuje. Datové sady zůstávají uzamčeny nebo nesprávně anonymizovány.

Tokenové dávkové zpracování umožňuje výzkum ve velkém měřítku. Akademická centra a nezávislí výzkumníci získají stejnou přesnost jako velké nemocniční systémy. V rámci standardního grantového rozpočtu.

Zdroje

Související články

Zdravotnictví

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

De-identifikace HIPAA Safe Harbor ve velkém měřítku