HIPAA Safe Harbor depersonalizācija apjomā: Rokasgrāmata veselības aprūpes pētniekiem
Akadēmiskajam medicīnas centram jānoskrubē 200 000 izrakstīšanas ierakstu. Mērķis: izveidot atkārtotās uzņemšanas prognozēšanas modeli. Esošais rīks izmaksā $120 000 gadā. Dotācijas budžets datu darbam: $5 000.
Šī plaisa ir izplatīta. Veselības aprūpes pētījumiem nepieciešamas lielas datu kopas. Šīs datu kopas satur aizsargātu veselības informāciju (PHI). PHI ietver vārdus, datumus, adreses un citas personas datus. PHI noņemšana ļauj pētniekiem likumīgi izmantot datus. Taču rīki ir veidoti slimnīcu sistēmām, nevis pētniecības dotācijām.
HIPAA Safe Harbor: 18 identifikatori
HIPAA Safe Harbor metode (45 CFR §164.514(b)) uzskaita 18 PHI tipus. Visiem jādodas, pirms veselības dati zaudē "aizsargāto" statusu. Pēc noņemšanas pētījums var notikt bez pacienta piekrišanas.
Šeit ir visi 18 tipi:
- Vārdi
- Ģeogrāfiskie dati, kas mazāki par štatu (pasta kodi jāsaīsina līdz 3 cipariem nelielām populācijām)
- Visi datumi, izņemot gadu — uzņemšanas, izrakstīšanas, dzimšanas, nāves un citi datumi
- Tālruņu numuri
- Faksu numuri
- E-pasta adreses
- Sociālās apdrošināšanas numuri
- Medicīnisko ierakstu numuri
- Veselības plāna saņēmēju numuri
- Konta numuri
- Sertifikātu un licenču numuri
- Transportlīdzekļu identifikatori un sērijas numuri
- Ierīču identifikatori un sērijas numuri
- Tīmekļa URL
- IP adreses
- Biometriskie identifikatori (pirkstu nospiedumi, balss nospiedumi)
- Pilnīgas sejas fotogrāfijas un līdzīgi attēli
- Jebkurš cits unikāls identificēšanas numurs vai kods
Pirmie pieci parādās gandrīz katrā izrakstīšanas ierakstā. Visi ir jānoņem vai jāmaina.
Datumiem nepieciešama īpaša uzmanība. Katrs pacienta datums ir jāsaglabā ar gadu, bet jāzaudē konkrētā diena un mēnesis. "2023. gada 15. marts" kļūst par "2023". Jūs varat saglabāt ilgumu kā lauku — bet tikai pēc tam, kad avota datumi ir pazuduši.
Mēroga problēma
Noderīgas veselības aprūpes datu kopas ir lielas:
- Atkārtotās uzņemšanas prognozēšana: 50 000–500 000 apmeklējumu
- Ārstēšanas rezultātu darbs: 10 000–100 000 pacientu uz slimību
- Zāļu efektivitāte: 5 000–50 000 ierakstu
- Iedzīvotāju veselība: 100 000+ apmeklējumu
Manuāla pārskatīšana šādā mērogā nedarbojas. 5 minūšu pārskatīšana uz ierakstu aizņem 250–2 500 darba dienas 100 000 ierakstiem. Cilvēku kļūdu līmenis ir 1–5%. Pat neliela palaišanas likme rada HIPAA risku. Divi pārskatītāji, kas datumu apstrādā atšķirīgi, var izjaukt Safe Harbor statusu. Tas ir viegli pieļaujama kļūda lielā datu kopā.
Automatizēta skrubēšana ir vienīgā reālā iespēja. Tai jāatklāj visi 18 tipi dažādajos formātos, kas atrodami klīniskajos pierakstīs.
Rīku cenu plaisa
Uzņēmuma rīki ir paredzēti slimnīcu sistēmām:
- Datavant: $100 000+/gadā
- Veradigm (Allscripts): līdzīgas cenas
- Clinithink CLiX: tikai jāsazinās ar pārdošanas nodaļu
- Syntegra (sintētiskie dati): uzņēmuma cenas
Šie piegādātāji pārdod lielām organizācijām ar juridiskajām un atbilstības komandām. Pētniecības dotācijas nav viņu tirgus.
Bezmaksas un atvērtā pirmkoda rīki pastāv, bet prasa zināšanas:
- MITRE MIST: bezmaksas, bet prasa lielu uzstādīšanu un tai ir ierobežots valodu atbalsts
- Stanford NLP DEID: pētnieciskais līmenis, prasa Java un kodēšanas prasmes
- i2b2 NLP rīki: klīniskais NLP, nepieciešama uzstādīšana
Lielākajā daļā pētnieku nepieciešama uzticama PHI noņemšana ar vienkāršu uzstādīšanu. Atvērtā pirmkoda rīkiem nepieciešamas kodēšanas un lingvistikas prasmes darbināšanai. Tiem arī nepieciešams validācijas darbs. Uzņēmuma rīki izmaksā vairāk, nekā lielākā daļa dotāciju ļauj. Plaisa ir reāla un tā bloķē pētījumus.
Piecu soļu pakešu process
Par 200 000 izrakstīšanas ierakstiem labi darbojas secīga pakešu pieeja.
1. solis: Eksportēt no EHR. Izvilkt strukturētus un nestrukturētus laukus kā teksta vai PDF failus uz apmeklējumu. Epic, Cerner un Meditech visi to atbalsta. Tie eksportē CSV vai HL7 failus ar klīnisko pierakstu laukiem iekļautiem.
2. solis: Palaist paketes pa 5 000. Paketes šādā lielumā ir ātras un pietiekami mazas pārskatīšanai katrā stadijā.
Iestatīt vienību tipus Safe Harbor:
- PERSON (pacienta vārdi, ģimenes locekļi pierakstīs)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (adreses, pasta kodi, pilsētas — viss, kas zem štata līmeņa)
- DATE (visi klīniskie datumi; pacienti virs 89 gadiem kļūst par "> 89")
- HEALTHCARE_ID (apdrošināšanas numuri, saņēmēju numuri)
- ACCOUNT_NUMBER
Plašāku informāciju par PHI pakešu skrubēšanu klīniskajiem pierakstīm skatīt klīnisko pierakstu pakešu apstrāde ar vietējiem HIPAA rīkiem. Šī rokasgrāmata sīkāk aptver failu formātus un vienību pielāgošanu.
3. solis: Apstrādāt datumus atsevišķā solī. Saglabāt gadu. Noņemt mēnesi un dienu. Aizstāt jebkuru vecumu virs 89 ar "> 89". Reti vecuma un slimības pāri var atkal identificēt pacientus. Vispirms aprēķināt ilguma laukus — uzturēšanās garums, dienas līdz atkārtotai uzņemšanai. Pēc tam dzēst avota datumus.
4. solis: Izlase un pārskatīšana katrai paketei. Pēc katras 5 000 ierakstu paketes izvilkt 50 ierakstus cilvēka pārskatīšanai. Pārbaudīt visus 18 tipus. Meklēt konteksta elementus, piemēram, pētnieku vārdus pierakstīs vai nosūtošā ārsta datus. Apstiprināt, ka datumu apstrāde atbilst Safe Harbor noteikumiem. Novērst visas nepilnības pirms turpināšanas.
5. solis: Dokumentēt un sertificēt. HIPAA prasa, lai kāds ar statistikas zināšanām apstiprinātu, ka atkārtotas identifikācijas risks ir ļoti mazs. Safe Harbor gadījumā komanda, kas veic noņemšanu, pieņem šo lēmumu. Uzrakstiet savu vienību konfigurāciju un izlases rezultātus. Saglabājiet tos IRB ierakstiem.
Vai nepieciešams revīzijas ieraksts katrai noņemšanai? Izskaidrojama redakcija ar HIPAA revīzijas izsekojamību sīkāk aptver reģistrēšanu.
Izmaksu salīdzinājums
Uzņēmuma rīks: $120 000/gadā. Sedz uzstādīšanu, apmācību, neierobežotu apstrādi un atbilstības atbalstu.
Pakešu apstrāde:
- 200 000 ierakstu × 300 vārdu vidēji = 60 000 000 marķieri
- Par €0,0001/marķieri: €6 000 apstrādē
- Pro plāns (€180/gadā) vai Business plāns (€348/gadā) projektam
- Pētnieka pārskatīšanas laiks: 20–40 stundas
- Kopā: aptuveni €7 000–8 000
Ietaupījumi salīdzinājumā ar uzņēmuma rīku: $111 000–113 000. Pētījums, kas apstājās pie $120 000, kļūst iespējams par $7 000.
Galvenie ierobežojumi
Tikai teksts. Šī pieeja apstrādā teksta bāzētu PHI. Attēliem, audio un biometriskiem datiem (Safe Harbor 13., 16. un 17. kategorija) nepieciešami citi rīki.
Nepieciešama validācija. Automatizēti rīki palaiž dažus elementus garām. 0,1% palaišanas likme uz 200 000 ierakstiem atstāj 200 ierakstus ar dzīvu PHI. Tas ir reāls HIPAA risks. Neizlaidiet validāciju.
Konsultējieties ar savu privātuma biroju. IRB apstiprinājums pētījumam neaptver skrubēšanas metodi. Lielākā daļa centru pārskata PHI noņemšanas pieejas atsevišķi. Šī rokasgrāmata papildina šo pārskatīšanu — tā to neaizstāj.
Eksperta noteikšana ir iespēja. HIPAA arī ļauj skrubēšanu caur "Eksperta noteikšanu" (45 CFR §164.514(b)(1)). Statistikas eksperts sertificē, ka atkārtotas identifikācijas risks ir ļoti mazs. Šis ceļš der neparastām datu kopām. Tas labi darbojas, kad visu datumu noņemšana izjauktu laika rindu analīzi.
Lai apskatītu automatizētu PHI rīku salīdzinājumu, skatīt PHI noteikšanas precizitātes salīdzinājumu.
Secinājums
Veselības aprūpes pētījumi, kas varētu palīdzēt pacientiem, ir aizsprostoti aiz PHI noņemšanas izmaksām. Manuāla pārskatīšana nemērogojas. Uzņēmuma rīki izmaksā vairāk, nekā lielākā daļa dotāciju ļauj. Datu kopas paliek bloķētas vai nepareizi skrubētas.
Marķieru bāzēta pakešu apstrāde padara liela mēroga pētījumus iespējamus. Akadēmiskie centri un neatkarīgie pētnieki iegūst to pašu precizitāti kā lielas slimnīcu sistēmas. Standarta dotācijas budžetā.