HIPAA Safe Harbor de-identifitseerimine mastaabis: juhend tervishoiuteadlastele

Akadeemilisel meditsiinlikeskusel on vaja puhastada 200 000 haiglast lahkumise kirjet. Eesmärk: ehitada tagasivõtmise ennustusmudel. Olemasoleva tööriista hind: 120 000 dollarit aastas. Toetuse eelarve andmetöö jaoks: 5000 dollarit.

See lõhe on levinud. Tervishoiuuringud vajavad suuri andmekoguseid. Need andmekogused sisaldavad kaitstud terviseinfot (PHI). PHI hõlmab nimesid, kuupäevi, aadresse ja muid isiklikke üksikasju. PHI eemaldamine võimaldab teadlastel andmeid seaduslikult kasutada. Kuid tööriistad on hinnastatud haiglasüsteemide, mitte uurimistoetuste jaoks.

HIPAA Safe Harbor: 18 identifikaatorit

HIPAA Safe Harbor meetod (45 CFR §164.514(b)) loetleb 18 PHI tüüpi. Kõik tuleb eemaldada enne, kui terviseandmed kaotavad oma "kaitstud" staatuse. Pärast eemaldamist saab uurimus toimuda ilma patsiendi nõusolekuta.

Siin on kõik 18 tüüpi:

Nimed
Väiksemad geograafilised andmed kui osariik (postiindeksid tuleb väikeste elanike puhul lühendada 3 kohani)
Kõik kuupäevad peale aasta -- vastuvõtu, väljakirjutamise, sünni, surma ja muud kuupäevad
Telefoninumbrid
Faksinumbrid
E-posti aadressid
Sotsiaalkindlustusnumbrid
Meditsiinilise dokumendi numbrid
Terviseplaanis osaleja numbrid
Kontonumbrid
Sertifikaatide ja litsentside numbrid
Sõidukite identifikaatorid ja seerianumbrid
Seadmete identifikaatorid ja seerianumbrid
Veebi URL-id
IP-aadressid
Biomeetrilised identifikaatorid (sõrmejäljed, hääletrükid)
Täispildi fotod ja sarnased pildid
Mis tahes muu ainulaadne identifitseerimise number või kood

Esimesed viis esinevad peaaegu igas väljakirjutamise kirjes. Kõik peavad olema eemaldatud või muudetud.

Kuupäevad vajavad erilist tähelepanu. Iga patsiendi kuupäev peab säilitama aasta, kuid kaotama konkreetse päeva ja kuu. "15. märts 2023" muutub "2023-ks". Saad säilitada kestuse väljana -- kuid ainult pärast lähteandmete kuupäevade eemaldamist.

Mastaabi probleem

Kasulikud tervishoiuandmekogused on suured:

Tagasivõtmise ennustamine: 50 000–500 000 kohtumist
Ravi tulemuste töö: 10 000–100 000 patsienti seisundi kohta
Ravimi efektiivsus: 5000–50 000 kirjet
Rahvastiku tervis: 100 000+ kohtumist

Käsitsi ülevaatus sellises mastaabis ei tööta. 5-minutiline ülevaatus kirje kohta võtab 100 000 kirje puhul 250–2500 tööpäeva. Inimlike vigade määrad on 1–5%. Isegi väike vahelejäämise määr loob HIPAA riski. Kaks ülevaatajat, kes käsitlevad kuupäevi erinevalt, võivad murda Safe Harbori staatuse. See on suurel andmekogul lihtne viga teha.

Automaatne puhastamine on ainus tõeline valik. See peab tabama kõik 18 tüüpi kliinilistes märkustes leitavate erinevate formaatide kaudu.

Tööriistade hinnalõhe

Ettevõtlusklassi tööriistad on suunatud haiglasüsteemidele:

Datavant: 100 000+ dollarit/aastas
Veradigm (Allscripts): sarnased hinnad
Clinithink CLiX: ainult müügilepinguga
Syntegra (sünteetilised andmed): ettevõtluse hinnastus

Need tarnijad müüvad suurtele organisatsioonidele, kellel on juriidilised ja vastavusmeeskonnad. Uurimistoetused pole nende turg.

Tasuta ja avatud lähtekoodiga tööriistad on olemas, kuid nõuavad oskusi:

MITRE MIST: tasuta, kuid vajab rasket seadistamist ja piiratud keeletuge
Stanford NLP DEID: uurimistasemega, vajab Javat ja kodeerimisoskusi
i2b2 NLP tööriistad: kliiniline NLP, seadistamine nõutav

Enamik teadlasi vajab usaldusväärset PHI eemaldamist lihtsa seadistamisega. Avatud lähtekoodiga tööriistad vajavad kodeerimis- ja keeleteaduslikke oskusi käitamiseks. Need vajavad ka valideerimistööd. Ettevõtlusklassi tööriistad maksavad rohkem, kui enamik toetusi lubab. Lõhe on reaalne ja see blokeerib uuringuid.

Viieastmeline partiitöötluse protsess

200 000 väljakirjutamise kirje jaoks toimib järjestikune partii lähenemisviis hästi.

Samm 1: Ekspordi EHR-st. Tõmba struktureeritud ja struktureerimata väljad teksti- või PDF-failidena kohtumise kohta. Epic, Cerner ja Meditech toetavad kõik seda. Need ekspordivad CSV- või HL7-faile koos kliiniliste märkuste väljadega.

Samm 2: Käivita 5000 kirjega partiisid. Sellise suurusega partiid on kiired ja piisavalt väikesed ülevaatuseks igas etapis.

Seadista üksuse tüübid Safe Harbori jaoks:

PERSON (patsiendi nimed, pereliikmed märkustes)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (aadressid, postiindeksid, linnad -- kõik osariigist allpool)
DATE (kõik kliinilised kuupäevad; üle 89-aastased patsiendid saavad "> 89")
HEALTHCARE_ID (kindlustusnumbrid, osaleja numbrid)
ACCOUNT_NUMBER

Lisateabe saamiseks kliiniliste märkuste partiipõhise PHI puhastamise kohta vaata kliiniliste märkuste partiitöötlus kohalike HIPAA tööriistadega. See juhend käsitleb failiformaate ja üksuste häälestamist põhjalikult.

Samm 3: Käsitle kuupäevi eraldi sammuna. Säilita aasta. Eemalda kuu ja päev. Asenda üle 89-aastased vanused "> 89"-ga. Haruldased vanuse-haiguse paarid võivad patsiente uuesti identifitseerida. Arvuta kestusväljad esmalt -- haiglas viibitud aeg, päevad tagasivõtmiseni. Seejärel kustuta lähteandmete kuupäevad.

Samm 4: Proovi ja vaata üle iga partii. Pärast iga 5000 kirjega partii töötlemist tõmba 50 kirjet inimese ülevaatuseks. Kontrolli kõiki 18 tüüpi. Otsi kontekstikaupu nagu teadlaste nimed märkustes või suunanud arsti üksikasju. Kinnita, et kuupäevade käsitlemine vastab Safe Harbori reeglitele. Paranda puudused enne edasiliikumist.

Samm 5: Dokumenteeri ja sertifitseeri. HIPAA nõuab statistiliste teadmistega isiku kinnitust, et uuesti identifitseerimise risk on väga väike. Safe Harbori puhul teeb selle otsuse eemaldamist tegev meeskond. Kirjuta üles oma üksuste konfiguratsioon ja proovivõtu tulemused. Hoia need IRB dokumentideks.

Kas vajad auditi jälge iga eemaldamise jaoks? Selgitatav redakteerimine HIPAA auditi jäljega käsitleb logimist üksikasjalikult.

Kulude võrdlus

Ettevõtlustaseme tööriist: 120 000 dollarit/aastas. Katab seadistamise, koolituse, piiramatu töötlemise ja vastavuse toe.

Partiitöötlus:

200 000 kirjet x 300 sõna keskmiselt = 60 000 000 tokenit
0,0001 €/tokeni korral: 6000 € töötlemises
Pro plaan (180 €/aastas) või Business plaan (348 €/aastas) projekti jaoks
Teadlase ülevaatuse aeg: 20–40 tundi
Kokku: umbes 7000–8000 €

Sääst ettevõtlustaseme tööriistaga võrreldes: 111 000–113 000 dollarit. Uuring, mis peatus 120 000 dollari juures, muutub teostatavaks 7000 dollari juures.

Peamised piirangud

Ainult tekst. See lähenemisviis käsitleb tekstipõhist PHI-d. Pildid, heli ja biomeetrilised andmed (Safe Harbori kategooriad 13, 16 ja 17) vajavad teisi tööriistu.

Valideerimine on nõutav. Automatiseeritud tööriistad jätavad mõned üksused vahele. 0,1%-line vahelejäämise määr 200 000 kirje puhul jätab 200 kirjet elava PHI-ga. See on reaalne HIPAA risk. Ära jäta valideerimist vahele.

Konsulteeri oma privaatsusosakonnaga. IRB heakskiit uurimuse jaoks ei kata puhastamise meetodit. Enamik asutusi vaatab PHI eemaldamise lähenemisviisid eraldi üle. See juhend täiendab seda ülevaatust -- see ei asenda seda.

Eksperdi tuvastamine on valik. HIPAA lubab ka puhastamist "Eksperdi tuvastamise" kaudu (45 CFR §164.514(b)(1)). Statistikaspetsialist kinnitab, et uuesti identifitseerimise risk on väga väike. See tee sobib ebatavaliste andmekogumite jaoks. See toimib hästi, kui kõigi kuupäevade eemaldamine rikuks ajarea analüüsi.

Automatiseeritud PHI tööriistade kõrvutivõrdluse jaoks vaata PHI tuvastamise täpsuse võrdlus.

Kokkuvõte

Tervishoiuuringud, mis võiksid patsiente aidata, on kinni PHI eemaldamise kulude taga. Käsitsi ülevaatus ei skaleeru. Ettevõtlustaseme tööriistad maksavad rohkem, kui enamik toetusi lubab. Andmekogud jäävad lukustatuks või ebakorrektselt puhastatuks.

Tokenipõhine partiitöötlus muudab suure ulatusega uuringud teostatavaks. Akadeemilised asutused ja sõltumatud teadlased saavad sama täpsuse kui suured haiglasüsteemid. Standardse toetuse eelarvega.

Allikad

Seotud Artiklid

Tervishoid

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

Alusta Tasuta Katset Vaata Funktsioone

HIPAA Safe Harbor de-identifitseerimine mastaabis