HIPAA Safe Harbor de-identifitseerimine mastaabis: juhend tervishoiuteadlastele
Akadeemilisel meditsiinlikeskusel on vaja puhastada 200 000 haiglast lahkumise kirjet. Eesmärk: ehitada tagasivõtmise ennustusmudel. Olemasoleva tööriista hind: 120 000 dollarit aastas. Toetuse eelarve andmetöö jaoks: 5000 dollarit.
See lõhe on levinud. Tervishoiuuringud vajavad suuri andmekoguseid. Need andmekogused sisaldavad kaitstud terviseinfot (PHI). PHI hõlmab nimesid, kuupäevi, aadresse ja muid isiklikke üksikasju. PHI eemaldamine võimaldab teadlastel andmeid seaduslikult kasutada. Kuid tööriistad on hinnastatud haiglasüsteemide, mitte uurimistoetuste jaoks.
HIPAA Safe Harbor: 18 identifikaatorit
HIPAA Safe Harbor meetod (45 CFR §164.514(b)) loetleb 18 PHI tüüpi. Kõik tuleb eemaldada enne, kui terviseandmed kaotavad oma "kaitstud" staatuse. Pärast eemaldamist saab uurimus toimuda ilma patsiendi nõusolekuta.
Siin on kõik 18 tüüpi:
- Nimed
- Väiksemad geograafilised andmed kui osariik (postiindeksid tuleb väikeste elanike puhul lühendada 3 kohani)
- Kõik kuupäevad peale aasta -- vastuvõtu, väljakirjutamise, sünni, surma ja muud kuupäevad
- Telefoninumbrid
- Faksinumbrid
- E-posti aadressid
- Sotsiaalkindlustusnumbrid
- Meditsiinilise dokumendi numbrid
- Terviseplaanis osaleja numbrid
- Kontonumbrid
- Sertifikaatide ja litsentside numbrid
- Sõidukite identifikaatorid ja seerianumbrid
- Seadmete identifikaatorid ja seerianumbrid
- Veebi URL-id
- IP-aadressid
- Biomeetrilised identifikaatorid (sõrmejäljed, hääletrükid)
- Täispildi fotod ja sarnased pildid
- Mis tahes muu ainulaadne identifitseerimise number või kood
Esimesed viis esinevad peaaegu igas väljakirjutamise kirjes. Kõik peavad olema eemaldatud või muudetud.
Kuupäevad vajavad erilist tähelepanu. Iga patsiendi kuupäev peab säilitama aasta, kuid kaotama konkreetse päeva ja kuu. "15. märts 2023" muutub "2023-ks". Saad säilitada kestuse väljana -- kuid ainult pärast lähteandmete kuupäevade eemaldamist.
Mastaabi probleem
Kasulikud tervishoiuandmekogused on suured:
- Tagasivõtmise ennustamine: 50 000–500 000 kohtumist
- Ravi tulemuste töö: 10 000–100 000 patsienti seisundi kohta
- Ravimi efektiivsus: 5000–50 000 kirjet
- Rahvastiku tervis: 100 000+ kohtumist
Käsitsi ülevaatus sellises mastaabis ei tööta. 5-minutiline ülevaatus kirje kohta võtab 100 000 kirje puhul 250–2500 tööpäeva. Inimlike vigade määrad on 1–5%. Isegi väike vahelejäämise määr loob HIPAA riski. Kaks ülevaatajat, kes käsitlevad kuupäevi erinevalt, võivad murda Safe Harbori staatuse. See on suurel andmekogul lihtne viga teha.
Automaatne puhastamine on ainus tõeline valik. See peab tabama kõik 18 tüüpi kliinilistes märkustes leitavate erinevate formaatide kaudu.
Tööriistade hinnalõhe
Ettevõtlusklassi tööriistad on suunatud haiglasüsteemidele:
- Datavant: 100 000+ dollarit/aastas
- Veradigm (Allscripts): sarnased hinnad
- Clinithink CLiX: ainult müügilepinguga
- Syntegra (sünteetilised andmed): ettevõtluse hinnastus
Need tarnijad müüvad suurtele organisatsioonidele, kellel on juriidilised ja vastavusmeeskonnad. Uurimistoetused pole nende turg.
Tasuta ja avatud lähtekoodiga tööriistad on olemas, kuid nõuavad oskusi:
- MITRE MIST: tasuta, kuid vajab rasket seadistamist ja piiratud keeletuge
- Stanford NLP DEID: uurimistasemega, vajab Javat ja kodeerimisoskusi
- i2b2 NLP tööriistad: kliiniline NLP, seadistamine nõutav
Enamik teadlasi vajab usaldusväärset PHI eemaldamist lihtsa seadistamisega. Avatud lähtekoodiga tööriistad vajavad kodeerimis- ja keeleteaduslikke oskusi käitamiseks. Need vajavad ka valideerimistööd. Ettevõtlusklassi tööriistad maksavad rohkem, kui enamik toetusi lubab. Lõhe on reaalne ja see blokeerib uuringuid.
Viieastmeline partiitöötluse protsess
200 000 väljakirjutamise kirje jaoks toimib järjestikune partii lähenemisviis hästi.
Samm 1: Ekspordi EHR-st. Tõmba struktureeritud ja struktureerimata väljad teksti- või PDF-failidena kohtumise kohta. Epic, Cerner ja Meditech toetavad kõik seda. Need ekspordivad CSV- või HL7-faile koos kliiniliste märkuste väljadega.
Samm 2: Käivita 5000 kirjega partiisid. Sellise suurusega partiid on kiired ja piisavalt väikesed ülevaatuseks igas etapis.
Seadista üksuse tüübid Safe Harbori jaoks:
- PERSON (patsiendi nimed, pereliikmed märkustes)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (aadressid, postiindeksid, linnad -- kõik osariigist allpool)
- DATE (kõik kliinilised kuupäevad; üle 89-aastased patsiendid saavad "> 89")
- HEALTHCARE_ID (kindlustusnumbrid, osaleja numbrid)
- ACCOUNT_NUMBER
Lisateabe saamiseks kliiniliste märkuste partiipõhise PHI puhastamise kohta vaata kliiniliste märkuste partiitöötlus kohalike HIPAA tööriistadega. See juhend käsitleb failiformaate ja üksuste häälestamist põhjalikult.
Samm 3: Käsitle kuupäevi eraldi sammuna. Säilita aasta. Eemalda kuu ja päev. Asenda üle 89-aastased vanused "> 89"-ga. Haruldased vanuse-haiguse paarid võivad patsiente uuesti identifitseerida. Arvuta kestusväljad esmalt -- haiglas viibitud aeg, päevad tagasivõtmiseni. Seejärel kustuta lähteandmete kuupäevad.
Samm 4: Proovi ja vaata üle iga partii. Pärast iga 5000 kirjega partii töötlemist tõmba 50 kirjet inimese ülevaatuseks. Kontrolli kõiki 18 tüüpi. Otsi kontekstikaupu nagu teadlaste nimed märkustes või suunanud arsti üksikasju. Kinnita, et kuupäevade käsitlemine vastab Safe Harbori reeglitele. Paranda puudused enne edasiliikumist.
Samm 5: Dokumenteeri ja sertifitseeri. HIPAA nõuab statistiliste teadmistega isiku kinnitust, et uuesti identifitseerimise risk on väga väike. Safe Harbori puhul teeb selle otsuse eemaldamist tegev meeskond. Kirjuta üles oma üksuste konfiguratsioon ja proovivõtu tulemused. Hoia need IRB dokumentideks.
Kas vajad auditi jälge iga eemaldamise jaoks? Selgitatav redakteerimine HIPAA auditi jäljega käsitleb logimist üksikasjalikult.
Kulude võrdlus
Ettevõtlustaseme tööriist: 120 000 dollarit/aastas. Katab seadistamise, koolituse, piiramatu töötlemise ja vastavuse toe.
Partiitöötlus:
- 200 000 kirjet x 300 sõna keskmiselt = 60 000 000 tokenit
- 0,0001 €/tokeni korral: 6000 € töötlemises
- Pro plaan (180 €/aastas) või Business plaan (348 €/aastas) projekti jaoks
- Teadlase ülevaatuse aeg: 20–40 tundi
- Kokku: umbes 7000–8000 €
Sääst ettevõtlustaseme tööriistaga võrreldes: 111 000–113 000 dollarit. Uuring, mis peatus 120 000 dollari juures, muutub teostatavaks 7000 dollari juures.
Peamised piirangud
Ainult tekst. See lähenemisviis käsitleb tekstipõhist PHI-d. Pildid, heli ja biomeetrilised andmed (Safe Harbori kategooriad 13, 16 ja 17) vajavad teisi tööriistu.
Valideerimine on nõutav. Automatiseeritud tööriistad jätavad mõned üksused vahele. 0,1%-line vahelejäämise määr 200 000 kirje puhul jätab 200 kirjet elava PHI-ga. See on reaalne HIPAA risk. Ära jäta valideerimist vahele.
Konsulteeri oma privaatsusosakonnaga. IRB heakskiit uurimuse jaoks ei kata puhastamise meetodit. Enamik asutusi vaatab PHI eemaldamise lähenemisviisid eraldi üle. See juhend täiendab seda ülevaatust -- see ei asenda seda.
Eksperdi tuvastamine on valik. HIPAA lubab ka puhastamist "Eksperdi tuvastamise" kaudu (45 CFR §164.514(b)(1)). Statistikaspetsialist kinnitab, et uuesti identifitseerimise risk on väga väike. See tee sobib ebatavaliste andmekogumite jaoks. See toimib hästi, kui kõigi kuupäevade eemaldamine rikuks ajarea analüüsi.
Automatiseeritud PHI tööriistade kõrvutivõrdluse jaoks vaata PHI tuvastamise täpsuse võrdlus.
Kokkuvõte
Tervishoiuuringud, mis võiksid patsiente aidata, on kinni PHI eemaldamise kulude taga. Käsitsi ülevaatus ei skaleeru. Ettevõtlustaseme tööriistad maksavad rohkem, kui enamik toetusi lubab. Andmekogud jäävad lukustatuks või ebakorrektselt puhastatuks.
Tokenipõhine partiitöötlus muudab suure ulatusega uuringud teostatavaks. Akadeemilised asutused ja sõltumatud teadlased saavad sama täpsuse kui suured haiglasüsteemid. Standardse toetuse eelarvega.