HIPAA Safe Harbor depersonalizācija apjomā: Rokasgrāmata veselības aprūpes pētniekiem

Akadēmiskajam medicīnas centram jānoskrubē 200 000 izrakstīšanas ierakstu. Mērķis: izveidot atkārtotās uzņemšanas prognozēšanas modeli. Esošais rīks izmaksā $120 000 gadā. Dotācijas budžets datu darbam: $5 000.

Šī plaisa ir izplatīta. Veselības aprūpes pētījumiem nepieciešamas lielas datu kopas. Šīs datu kopas satur aizsargātu veselības informāciju (PHI). PHI ietver vārdus, datumus, adreses un citas personas datus. PHI noņemšana ļauj pētniekiem likumīgi izmantot datus. Taču rīki ir veidoti slimnīcu sistēmām, nevis pētniecības dotācijām.

HIPAA Safe Harbor: 18 identifikatori

HIPAA Safe Harbor metode (45 CFR §164.514(b)) uzskaita 18 PHI tipus. Visiem jādodas, pirms veselības dati zaudē "aizsargāto" statusu. Pēc noņemšanas pētījums var notikt bez pacienta piekrišanas.

Šeit ir visi 18 tipi:

Vārdi
Ģeogrāfiskie dati, kas mazāki par štatu (pasta kodi jāsaīsina līdz 3 cipariem nelielām populācijām)
Visi datumi, izņemot gadu — uzņemšanas, izrakstīšanas, dzimšanas, nāves un citi datumi
Tālruņu numuri
Faksu numuri
E-pasta adreses
Sociālās apdrošināšanas numuri
Medicīnisko ierakstu numuri
Veselības plāna saņēmēju numuri
Konta numuri
Sertifikātu un licenču numuri
Transportlīdzekļu identifikatori un sērijas numuri
Ierīču identifikatori un sērijas numuri
Tīmekļa URL
IP adreses
Biometriskie identifikatori (pirkstu nospiedumi, balss nospiedumi)
Pilnīgas sejas fotogrāfijas un līdzīgi attēli
Jebkurš cits unikāls identificēšanas numurs vai kods

Pirmie pieci parādās gandrīz katrā izrakstīšanas ierakstā. Visi ir jānoņem vai jāmaina.

Datumiem nepieciešama īpaša uzmanība. Katrs pacienta datums ir jāsaglabā ar gadu, bet jāzaudē konkrētā diena un mēnesis. "2023. gada 15. marts" kļūst par "2023". Jūs varat saglabāt ilgumu kā lauku — bet tikai pēc tam, kad avota datumi ir pazuduši.

Mēroga problēma

Noderīgas veselības aprūpes datu kopas ir lielas:

Atkārtotās uzņemšanas prognozēšana: 50 000–500 000 apmeklējumu
Ārstēšanas rezultātu darbs: 10 000–100 000 pacientu uz slimību
Zāļu efektivitāte: 5 000–50 000 ierakstu
Iedzīvotāju veselība: 100 000+ apmeklējumu

Manuāla pārskatīšana šādā mērogā nedarbojas. 5 minūšu pārskatīšana uz ierakstu aizņem 250–2 500 darba dienas 100 000 ierakstiem. Cilvēku kļūdu līmenis ir 1–5%. Pat neliela palaišanas likme rada HIPAA risku. Divi pārskatītāji, kas datumu apstrādā atšķirīgi, var izjaukt Safe Harbor statusu. Tas ir viegli pieļaujama kļūda lielā datu kopā.

Automatizēta skrubēšana ir vienīgā reālā iespēja. Tai jāatklāj visi 18 tipi dažādajos formātos, kas atrodami klīniskajos pierakstīs.

Rīku cenu plaisa

Uzņēmuma rīki ir paredzēti slimnīcu sistēmām:

Datavant: $100 000+/gadā
Veradigm (Allscripts): līdzīgas cenas
Clinithink CLiX: tikai jāsazinās ar pārdošanas nodaļu
Syntegra (sintētiskie dati): uzņēmuma cenas

Šie piegādātāji pārdod lielām organizācijām ar juridiskajām un atbilstības komandām. Pētniecības dotācijas nav viņu tirgus.

Bezmaksas un atvērtā pirmkoda rīki pastāv, bet prasa zināšanas:

MITRE MIST: bezmaksas, bet prasa lielu uzstādīšanu un tai ir ierobežots valodu atbalsts
Stanford NLP DEID: pētnieciskais līmenis, prasa Java un kodēšanas prasmes
i2b2 NLP rīki: klīniskais NLP, nepieciešama uzstādīšana

Lielākajā daļā pētnieku nepieciešama uzticama PHI noņemšana ar vienkāršu uzstādīšanu. Atvērtā pirmkoda rīkiem nepieciešamas kodēšanas un lingvistikas prasmes darbināšanai. Tiem arī nepieciešams validācijas darbs. Uzņēmuma rīki izmaksā vairāk, nekā lielākā daļa dotāciju ļauj. Plaisa ir reāla un tā bloķē pētījumus.

Piecu soļu pakešu process

Par 200 000 izrakstīšanas ierakstiem labi darbojas secīga pakešu pieeja.

1. solis: Eksportēt no EHR. Izvilkt strukturētus un nestrukturētus laukus kā teksta vai PDF failus uz apmeklējumu. Epic, Cerner un Meditech visi to atbalsta. Tie eksportē CSV vai HL7 failus ar klīnisko pierakstu laukiem iekļautiem.

2. solis: Palaist paketes pa 5 000. Paketes šādā lielumā ir ātras un pietiekami mazas pārskatīšanai katrā stadijā.

Iestatīt vienību tipus Safe Harbor:

PERSON (pacienta vārdi, ģimenes locekļi pierakstīs)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (adreses, pasta kodi, pilsētas — viss, kas zem štata līmeņa)
DATE (visi klīniskie datumi; pacienti virs 89 gadiem kļūst par "> 89")
HEALTHCARE_ID (apdrošināšanas numuri, saņēmēju numuri)
ACCOUNT_NUMBER

Plašāku informāciju par PHI pakešu skrubēšanu klīniskajiem pierakstīm skatīt klīnisko pierakstu pakešu apstrāde ar vietējiem HIPAA rīkiem. Šī rokasgrāmata sīkāk aptver failu formātus un vienību pielāgošanu.

3. solis: Apstrādāt datumus atsevišķā solī. Saglabāt gadu. Noņemt mēnesi un dienu. Aizstāt jebkuru vecumu virs 89 ar "> 89". Reti vecuma un slimības pāri var atkal identificēt pacientus. Vispirms aprēķināt ilguma laukus — uzturēšanās garums, dienas līdz atkārtotai uzņemšanai. Pēc tam dzēst avota datumus.

4. solis: Izlase un pārskatīšana katrai paketei. Pēc katras 5 000 ierakstu paketes izvilkt 50 ierakstus cilvēka pārskatīšanai. Pārbaudīt visus 18 tipus. Meklēt konteksta elementus, piemēram, pētnieku vārdus pierakstīs vai nosūtošā ārsta datus. Apstiprināt, ka datumu apstrāde atbilst Safe Harbor noteikumiem. Novērst visas nepilnības pirms turpināšanas.

5. solis: Dokumentēt un sertificēt. HIPAA prasa, lai kāds ar statistikas zināšanām apstiprinātu, ka atkārtotas identifikācijas risks ir ļoti mazs. Safe Harbor gadījumā komanda, kas veic noņemšanu, pieņem šo lēmumu. Uzrakstiet savu vienību konfigurāciju un izlases rezultātus. Saglabājiet tos IRB ierakstiem.

Vai nepieciešams revīzijas ieraksts katrai noņemšanai? Izskaidrojama redakcija ar HIPAA revīzijas izsekojamību sīkāk aptver reģistrēšanu.

Izmaksu salīdzinājums

Uzņēmuma rīks: $120 000/gadā. Sedz uzstādīšanu, apmācību, neierobežotu apstrādi un atbilstības atbalstu.

Pakešu apstrāde:

200 000 ierakstu × 300 vārdu vidēji = 60 000 000 marķieri
Par €0,0001/marķieri: €6 000 apstrādē
Pro plāns (€180/gadā) vai Business plāns (€348/gadā) projektam
Pētnieka pārskatīšanas laiks: 20–40 stundas
Kopā: aptuveni €7 000–8 000

Ietaupījumi salīdzinājumā ar uzņēmuma rīku: $111 000–113 000. Pētījums, kas apstājās pie $120 000, kļūst iespējams par $7 000.

Galvenie ierobežojumi

Tikai teksts. Šī pieeja apstrādā teksta bāzētu PHI. Attēliem, audio un biometriskiem datiem (Safe Harbor 13., 16. un 17. kategorija) nepieciešami citi rīki.

Nepieciešama validācija. Automatizēti rīki palaiž dažus elementus garām. 0,1% palaišanas likme uz 200 000 ierakstiem atstāj 200 ierakstus ar dzīvu PHI. Tas ir reāls HIPAA risks. Neizlaidiet validāciju.

Konsultējieties ar savu privātuma biroju. IRB apstiprinājums pētījumam neaptver skrubēšanas metodi. Lielākā daļa centru pārskata PHI noņemšanas pieejas atsevišķi. Šī rokasgrāmata papildina šo pārskatīšanu — tā to neaizstāj.

Eksperta noteikšana ir iespēja. HIPAA arī ļauj skrubēšanu caur "Eksperta noteikšanu" (45 CFR §164.514(b)(1)). Statistikas eksperts sertificē, ka atkārtotas identifikācijas risks ir ļoti mazs. Šis ceļš der neparastām datu kopām. Tas labi darbojas, kad visu datumu noņemšana izjauktu laika rindu analīzi.

Lai apskatītu automatizētu PHI rīku salīdzinājumu, skatīt PHI noteikšanas precizitātes salīdzinājumu.

Secinājums

Veselības aprūpes pētījumi, kas varētu palīdzēt pacientiem, ir aizsprostoti aiz PHI noņemšanas izmaksām. Manuāla pārskatīšana nemērogojas. Uzņēmuma rīki izmaksā vairāk, nekā lielākā daļa dotāciju ļauj. Datu kopas paliek bloķētas vai nepareizi skrubētas.

Marķieru bāzēta pakešu apstrāde padara liela mēroga pētījumus iespējamus. Akadēmiskie centri un neatkarīgie pētnieki iegūst to pašu precizitāti kā lielas slimnīcu sistēmas. Standarta dotācijas budžetā.

Avoti

Saistītie Raksti

Veselības Aprūpe

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

Sākt Bezmaksas Izmēģinājumu Skatīt Funkcijas

HIPAA Safe Harbor depersonalizācija apjomā