De-identifikacija HIPAA Safe Harbor pri lestvici: Vodic za zdravstvene raziskovalce

Akademski medicinski center mora ocistiti 200.000 odpustnih evidenc. Cilj: zgraditi model za napoved ponovnih sprejemov. Obstoječe orodje stane 120.000 USD na leto. Proracun granata za podatke: 5.000 USD.

Ta vrzel je pogosta. Zdravstvene raziskave potrebujejo velike podatkovne nize. Ti nizi vsebujejo zavarovane zdravstvene informacije (PHI). PHI vkljucuje imena, datume, naslove in druge osebne podatke. Odstranitev PHI omogoca raziskovalcem zakonito uporabo podatkov. Toda orodja so cenjena za bolnisnicne sisteme, ne za raziskovalne granate.

HIPAA Safe Harbor: 18 identifikatorjev

Metoda Safe Harbor HIPAA (45 CFR SS164.514(b)) navaja 18 tipov PHI. Vsi morajo biti odstranjeni, preden zdravstveni podatki izgubijo status "zavarovanih". Po odstranitvi je mogoco nadaljnjevati z raziskavami brez privolitve pacienta.

Tukaj je vseh 18 tipov:

Imena
Geografski podatki, manjsi od drzave (postne stevilke potrebujejo okrnitev na 3 cifre za majhne populacije)
Vsi datumi razen leta - sprejem, odpust, rojstvo, smrt in drugi datumi
Telefonske stevilke
Stevilke faksa
E-postni naslovi
Stevilke socialnega zavarovanja
Stevilke zdravstvenih evidenc
Stevilke upravicencev zdravstvenega zavarovanja
Stevilke racunov
Stevilke spriceval in licenc
Identifikatorji vozil in serijske stevilke
Identifikatorji naprav in serijske stevilke
Spletni URL-ji
IP naslovi
Biometricni identifikatorji (prstni odtisi, glasovni odtisi)
Celotne fotografije obraza in podobne slike
Katera koli druga edinstvena identifikacijska stevilka ali koda

Prvih pet se pojavi v skoraj vsakem odpustnem zapisu. Vse je treba odstraniti ali spremeniti.

Datumi zahtevajo posebno pozornost. Vsak datum pacienta mora ohraniti leto, a izgubiti specificni dan in mesec. "15. marca 2023" postane "2023". Trajanje lahko ohranite kot polje - ampak samo po odstranitvi izvornih datumov.

Problem lestvice

Koristni zdravstveni podatkovni nizi so veliki:

Napoved ponovnih sprejemov: 50.000-500.000 stikov
Delo z rezultati zdravljenja: 10.000-100.000 pacientov na bolezni
Ucinek zdravil: 5.000-50.000 evidenc
Zdravje populacije: 100.000+ stikov

Rocni pregled pri tej lestvici ne deluje. 5-minutni pregled na evidenco vzame 250-2.500 delovnih dni za 100.000 evidenc. Stopnje clovesnih napak znasajo 1-5%. Ze majhna stopnja zamude ustvari tveganje HIPAA. Dva pregledovalca, ki razlicno obravnavata datume, sta lahko prekrsila status Safe Harbor. To je lahka napaka pri velikem podatkovnem nizu.

Avtomatiziran scrubing je edina realna moznost. Mora zajeti vseh 18 tipov v razlicnih formatih, najdenih v klinicnih zapisih.

Cenovna vrzel orodij

Podjetniška orodja ciljajo bolnisnicne sisteme:

Datavant: 100.000+ USD/leto
Veradigm (Allscripts): podobne cene
Clinithink CLiX: samo po dogovoru
Syntegra (sinteticni podatki): podjetniška cenitev

Ti prodajalci prodajajo velikim organizacijam s pravnimi in skladnostnimi ekipami. Raziskovalne granate niso njihov trg.

Brezplacna in odprtokodna orodja obstajajo, a zahtevajo strokovnost:

MITRE MIST: brezplacno, a zahteva tezko nastavitev in ima omejeno jezikovne podpore
Stanford NLP DEID: na ravni raziskav, zahteva Java in kodirne spretnosti
i2b2 orodja NLP: klinicni NLP, zahtevana nastavitev

Vecina raziskovalcev potrebuje zanesljivo odstranitev PHI z enostavno nastavitvijo. Odprtokodna orodja za delovanje potrebujejo kodirne in jezikoslovne spretnosti. Zahtevajo tudi validacijsko delo. Podjetniška orodja stanejo vec, kot vecina grantatov dopusca. Vrzel je realna in blokira raziskave.

Petkoracni paketni postopek

Za 200.000 odpustnih evidenc zaporedni paketni pristop dobro deluje.

Korak 1: Izvoz iz EHR. Izvlecite strukturirana in nestrukturirana polja kot besedilne ali PDF datoteke na stik. Epic, Cerner in Meditech vse to podpirajo. Izvazajo datoteke CSV ali HL7 z vkljucenimi polji klinicnih zapisov.

Korak 2: Zazerite pakete po 5.000. Paketi te velikosti so hitri in dovolj majhni za pregled na vsaki stopnji.

Nastavite tipe entitet za Safe Harbor:

PERSON (imena pacientov, druzinski clani v zapisih)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (naslovi, postne stevilke, mesta - karkoli pod ravnjo drzave)
DATE (vsi klinicni datumi; pacienti, starejsi od 89 let, postanejo "> 89")
HEALTHCARE_ID (stevilke zavarovalnice, stevilke upravicencev)
ACCOUNT_NUMBER

Za vec o paketnem scrubing PHI za klinicne zapise glejte paketna obdelava klinicnih zapisov z lokalnimi orodji HIPAA. Ta vodic poglobljeno obravnava formate datotek in natancanje entitet.

Korak 3: Datume obravnavajte kot locen korak. Ohranite leto. Odstranite mesec in dan. Vsako starost nad 89 let zamenjajte z "> 89". Redki pari starost-bolezni lahko povzrocijo ponovno identifikacijo pacientov. Najprej izracunajte polja trajanja - dolzina bivanja, dnevi do ponovnega sprejema. Nato izbriste izvorne datume.

Korak 4: Vzorcite in pregledajte vsak paket. Po vsakem paketu 5.000 evidenc izvlecite 50 evidenc za clovekov pregled. Preverite vseh 18 tipov. IsCite kontekstne elemente, kot so imena raziskovalcev v zapisih ali podatki napotnih zdravnikov. Potrdite, da ravnanje z datumi ustreza pravilom Safe Harbor. Preden nadaljujete, odpravite vse vrzeli.

Korak 5: Dokumentirajte in potrdite. HIPAA zahteva, da nekdo s statisticnim znanjem potrdi, da je tveganje ponovne identifikacije zelo majhno. Za Safe Harbor to odlocitev sprejme ekipa, ki izvaja odstranitev. Zapisite svojo konfiguracijo entitet in rezultate vzorcenja. Hranite jih za evidence IRB.

Potrebujete revizijsko sled za vsako odstranitev? Razlozljiva redakcija z revizijsko sledjo HIPAA podrobno obravnava belezenje.

Primerjava stroskov

Podjetniško orodje: 120.000 USD/leto. Pokriva nastavitev, usposabljanje, neomejeno obdelavo in podporo pri skladnosti.

Paketna obdelava:

200.000 evidenc x 300 besed povprecje = 60.000.000 zetonov
Pri 0,0001 EUR/zeton: 6.000 EUR za obdelavo
Pro nacrt (180 EUR/leto) ali Business nacrt (348 EUR/leto) za projekt
Cas pregleda raziskovalca: 20-40 ur
Skupaj: priblizno 7.000-8.000 EUR

Prihranek v primerjavi z podjetniskim orodjem: 111.000-113.000 USD. Raziskave, ki so stale pri 120.000 USD, postanejo izvedljive pri 7.000 USD.

Kljucne omejitve

Samo besedilo. Ta pristop obravnava PHI na osnovi besedila. Slike, zvok in biometricni podatki (kategorije Safe Harbor 13, 16 in 17) potrebujejo druga orodja.

Zahtevana je validacija. Avtomatizirana orodja zamudijo nekatere elemente. 0,1-odstotna stopnja zamude na 200.000 evidencah puscata 200 evidenc z zivim PHI. To je realno tveganje HIPAA. Ne preskobi validacije.

Preverite pri vasem oddelku za zasebnost. Odobritev IRB za studijo ne pokriva metode scrubing. Vecina centrov loceno pregleduje pristope odstranitve PHI. Ta vodic dopolni ta pregled - ga ne nadomesti.

Strokovna dolocitev je moznost. HIPAA prav tako dovoljuje scrubing prek "strokovne dolocitve" (45 CFR SS164.514(b)(1)). Statisticni strokovnjak potrdi, da je tveganje ponovne identifikacije zelo majhno. Ta pot ustreza neobicajnim podatkovnim nizom. Dobro deluje, ko bi odstranitev vseh datumov prekinila analizo casovnih vrst.

Za primerjavo avtomatiziranih orodij PHI glejte primerjava natancnosti zaznavanja PHI.

Zakljucek

Zdravstvene raziskave, ki bi lahko pomagale pacientom, so zaklenjene za stroskov odstranitve PHI. Rocni pregled se ne lestvica. Podjetniška orodja stanejo vec, kot vecina grantatov dopusca. Podatkovni nizi ostanejo zaklenjeni ali nepravilno ocisceni.

Paketna obdelava na osnovi zetonov naredi obsezne raziskave izvedljive. Akademski centri in neodvisni raziskovalci dobijo enako natancnost kot veliki bolnisnicni sistemi. Za standardni proracun granata.

Viri

Sorodni članki

Zdravstvo

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

Začnite brezplačno preizkušnjo Ogled funkcij

De-identifikacija HIPAA Safe Harbor pri lestvici za zdravstvene raziskave

De-identifikacija HIPAA Safe Harbor pri lestvici: Vodic za zdravstvene raziskovalce

HIPAA Safe Harbor: 18 identifikatorjev

Problem lestvice

Cenovna vrzel orodij

Petkoracni paketni postopek

Primerjava stroskov

Kljucne omejitve

Zakljucek

Viri

Sorodni članki

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Ste pripravljeni zaščititi svoje podatke?

De-identifikacija HIPAA Safe Harbor pri lestvici za zdravstvene raziskave

De-identifikacija HIPAA Safe Harbor pri lestvici: Vodic za zdravstvene raziskovalce

HIPAA Safe Harbor: 18 identifikatorjev

Problem lestvice

Cenovna vrzel orodij

Petkoracni paketni postopek

Primerjava stroskov

Kljucne omejitve

Zakljucek

Viri

Sorodni članki

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Ste pripravljeni zaščititi svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow