HIPAA Safe Harbor -tunnisteiden poistaminen laajassa mittakaavassa: Käytännöllinen opas terveydenhuollon tutkijoille

Akateemisen terveyskeskuksen IRB-hyväksytty tutkimusprojekti vaatii 200 000 kotiutustietueen tunnisteiden poistamisen sairaalaanpalaamisen ennustavan ML-mallin kehittämiseksi. Olemassa oleva HIPAA-tunnisteiden poistamistyökalu maksaa 120 000 dollaria vuodessa. Tutkimusapurahan budjetti datankäsittelyyn: 5 000 dollaria.

Tämä skenaario on yleinen. Terveydenhuollon tutkimus tuottaa arvokkaita oivalluksia — sairaalaanpalaamisen ennustemallit, hoitotulostutkimukset, lääkkeiden tehostamisanalyysit — jotka vaativat suuria, edustavia datasettejä ollakseen tilastollisesti merkittäviä. Nämä datasetit sisältävät suojattua terveysinformaatiota (PHI). Tunnisteiden poistaminen mahdollistaa tutkimuksen samalla kun se suojaa potilaan yksityisyyttä. Mutta saatavilla olevat laajan mittakaavan tunnisteiden poistamistyökalut on hinnoiteltu suurille sairaalajärjestelmille, ei tutkimusbudjeteille.

HIPAA Safe Harbor: Mitä on poistettava

HIPAA:n Safe Harbor -tunnisteiden poistamismenetelmä (45 CFR §164.514(b)) määrittää 18 PHI-kategoriaa, jotka on poistettava ennen kuin terveysinformaatio menettää "suojatun" statuksensa ja voidaan käyttää tutkimukseen ilman yksilöllistä lupaa:

Nimet
Maantieteelliset tiedot (kaikki pienemmät kuin osavaltio; postinumerot vaativat lyhentämistä 3 numeroon pienten väestöjen osalta)
Päivämäärät (paitsi vuosi) — sairaanhoitopäivä, kotiutuspäivä, syntymäpäivä, kuolinpäivä, kaikki muut päivämäärät
Puhelinnumerot
Faksipuhelinnumerot
Sähköpostiosoitteet
Sosiaaliturvatunnukset
Sairauskertomustunnukset
Terveysvakuutuksen edunsaajatunnukset
Tilinumerot
Varmennus-/lisenssitunnukset
Ajoneuvojen tunnisteet ja sarjanumerot
Laitteiden tunnisteet ja sarjanumerot
Verkko-URL:t
IP-osoitteet
Biometriset tunnisteet (sormenjäljet, ääniprintit)
Kasvokuvat täysinä ja vastaavat kuvat
Mikä tahansa muu yksilöllinen tunnistenumero, ominaisuus tai koodi

Ensimmäiset 5 tunnistetta (nimet, maantieteelliset tiedot, päivämäärät, puhelinnumerot, faksipuhelinnumerot) esiintyvät lähes jokaisessa kotiutustietueessa. Ne kaikki on poistettava tai muutettava.

Huomio päivämääristä: Tämä on yksi toiminnallisesti monimutkaisimmista Safe Harbor -vaatimuksista. Ei vain syntymäpäivä — kaikki potilaan hoitoon liittyvät päivämäärät on säilytettävä vuosi mutta poistettava tai yleistettävä tarkka päivämäärä. Kotiutustietue, jonka päivämäärä on "15. maaliskuuta 2023" muuttuu "2023":ksi. Hoitoajan kesto voidaan säilyttää laskennallisena kenttänä, jos taustalla olevat päivämäärät poistetaan.

Laajan mittakaavan ongelma akateemisessa tutkimuksessa

Tutkimusdatasetit, jotka tuottavat tilastollisesti merkittäviä löydöksiä terveydenhuollossa, vaativat tyypillisesti:

Sairaalaanpalaamisen ennustaminen: 50 000–500 000 potilaskontaktia
Hoitotulosanalyysi: 10 000–100 000 potilasta per sairaus
Lääkkeiden tehostamistutkimukset: 5 000–50 000 potilastietue
Väestön terveysanalyysi: 100 000+ kontaktia

Manuaalinen tunnisteiden poistaminen tässä mittakaavassa ei ole toteuttamiskelpoinen:

Jopa 5 minuutin per tietue -tarkistus vaatii 250–2 500 työpäivää 100 000 tietueelle
Manuaalinen tarkistus tuo mukanaan 1–5 %:n inhimillisen virheen määrät — ei hyväksyttäviä tutkimusdataseteille, joissa pienikin prosenttiosuus tunnistettavia tietueita luo HIPAA-vastuun
Epäjohdonmukainen soveltaminen datasettiin (yksi tarkistaja käsittelee päivämääriä eri tavalla kuin toinen) heikentää Safe Harbor -kelpoisuuden

Vaihtoehto — automatisoitu tunnisteiden poistaminen — vaatii tarpeeksi kehittyneitä työkaluja tunnistamaan kaikki 18 tunnistekategoriaa kliinisen dokumentaation vaihtelevissa formaateissa.

Nykyinen työkalumaisema ja hinnoitteluaukko

Yritystason HIPAA-tunnisteiden poistamistyökalut:

Datavant: 100 000+ $/vuosi suurille terveydenhuoltoorganisaatioille
Veradigm (Allscripts) tunnisteiden poistaminen: vastaava yrityshinnoittelu
Clinithink CLiX: kysy hintaa myyntitiimiltä
Syntegra (synteettinen datan generointi): yrityshinnoittelu

Nämä työkalut on suunniteltu sairaalajärjestelmille, jotka käsittelevät miljoonia tietueita vuosittain vaatimustenmukaisuustiimeillä, lakiosastoilla ja yrityshankinnan kyvyillä. Ne eivät ole saavutettavissa akateemisille tutkijoille apurahabudjeteilla.

Ilmaiset/avoimen lähdekoodin vaihtoehdot:

MITRE Identification Scrubber Toolkit (MIST): Ilmainen, mutta vaatii merkittävän teknisen asennuksen ja on rajoittunut kielituen osalta
Stanford NLP DEID: Tutkimusluokka, vaatii Java/ohjelmointiosaamista
i2b2 NLP -työkalut: Kliiniset NLP-työkalut, vaativat teknisen asennuksen

Aukko: Akateemiset terveyskeskukset tarvitsevat luotettavan, tarkan tunnisteiden poistamisen minimaalisen teknisen asennuksen kanssa. Avoimen lähdekoodin työkalut vaativat laskennallisen kielitieteen asiantuntemusta konfigurointiin ja validointiin. Yritystyökalut vaativat budjettia, jota tutkimusprojekteilla ei ole.

Käytännöllinen lähestymistapa: Eräkäsittely peräkkäisissä ajoissa

200 000 kotiutustietueen datasetille:

Vaihe 1: Tietojen vienti EHR-järjestelmästä Vie strukturoidut ja strukturoimattomat tietokentät tekstitiedostoihin tai PDF-tietueisiin per potilaskontakti. Useimmat EHR-järjestelmät (Epic, Cerner, Meditech) tukevat strukturoitujen tietojen vientiä CSV-/HL7-muodossa erillisine tekstikenttiä kliinisille muistiinpanoille.

Vaihe 2: Eräkäsittely peräkkäisissä ajoissa Käsittele 5 000 tietueen erissä — tarpeeksi suuri ollakseen tehokasta, tarpeeksi pieni salliakseen laadun tarkistuksen kussakin vaiheessa.

Konfiguroi entiteettityypit HIPAA Safe Harborille:

PERSON (potilaiden nimet, perheenjäsenten nimet muistiinpanoissa mainittuina)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (maantieteelliset entiteetit, jotka ovat pienempiä kuin osavaltio — katusosoitteet, postinumerot, kaupungit)
DATE (kaikki kliiniset päivämäärät — sovella iän yleistystä: yli 89-vuotiaat tulevat "yli 89")
HEALTHCARE_ID (vakuutuksen jäsentunnukset, edunsaajatunnukset)
ACCOUNT_NUMBER

Vaihe 3: Päivämäärien käsittely (erikoistunut) Päivämäärät vaativat erityistä käsittelyä poiston lisäksi:

Säilytä vuosi
Poista kuukausi ja päivä
Ikälaskennan osalta: jos ikä > 89, korvaa tarkka ikä "> 89":llä estääksesi uudelleentunnistaminen harvinaisilla ikä-sairaus-yhdistelmillä
Laske kestokentät (hoitoaika, päiviä sairaalaanpalaamiseen) päivämäärieneroista, sitten poista alkuperäiset päivämäärät

Tämä vaihe saattaa vaatia erikoistuneen jälkikäsittelyskriptin johdannaiskenttien laskemiseksi ennen päivämäärien poistamista.

Vaihe 4: Validointinäytteenotto Jokaisen 5 000 tietueen erän jälkeen näytä 50 tietuetta ihmisen tarkistukseen:

Tarkista, että kaikki 18 tunnistekategoriaa on poistettu
Tarkista kontekstikohtaiset tunnisteet (tutkijan nimet kliinisissä muistiinpanoissa, lähettävän lääkärin tiedot)
Validoi päivämäärien käsittely Safe Harbor -vaatimusten mukaisesti

Vaihe 5: Sertifiointi HIPAA edellyttää, että asianmukaisen tilastollisen tai tieteellisen osaamisen omaava henkilö toteaa, että uudelleentunnistamisen todennäköisyys on hyvin pieni. Safe Harborille 18-kategorian poistoa soveltava taho sertifioi vaatimustenmukaisuuden. Dokumentoi prosessisi, entiteettityypin konfiguraatio ja validointinäytteenotto IRB-tietueita varten.

Kustannusanalyysi: Tutkimusbudjetti vs. yritystyökalu

Yrityksen HIPAA-tunnisteiden poistamistyökalu: 120 000 $/vuosi Sisältää asennuksen, koulutuksen, rajoittamattoman käsittelyn, vaatimustenmukaisuusdokumentaatiotuen.

Eräkäsittelylähestymistapa:

200 000 tietuetta × keskimäärin 300 sanaa/tietue = 60 000 000 tokenia
0,0001 €/tokeni: 6 000 € käsittelykustannuksessa
Pro-suunnitelma (180 €/vuosi) tai Business-suunnitelma (348 €/vuosi) projektin kestoksi
Tutkijan aika validointiin: 20–40 tuntia tohtoripalkoilla
Yhteensä: noin 7 000–8 000 €

Vuosittaiset säästöt verrattuna yritystyökaluun: 111 000–113 000 dollaria.

Tutkimus, joka oli kustannusten kannalta mahdoton 120 000 dollarilla, muuttuu toteuttamiskelpoiseksi 7 000 dollarilla — apurahabudjetti kattaa sekä datankäsittelyn että tutkijan ajan.

Tärkeitä huomioita

Tämä lähestymistapa soveltuu tekstipohjaisten PHI-tunnisteiden poistamiseen. Kuvat, äänitallenteet ja biometriset tiedot (Safe Harbor -kategoriat 13, 16, 17) vaativat erikoistyökaluja tekstinkäsittelyn ulkopuolelta.

Validointi on pakollista. Automatisoituihin työkaluihin ei voi luottaa 100 %:sti. 0,1 %:n haastatteluprosentti 200 000 tietueessa tarkoittaa 200 tietuetta jäljellä olevilla PHI-tiedoilla — silti merkittävä HIPAA-riski. Validointinäytteenottoaskel ei ole valinnainen.

Laitoksesi tietosuojatoimiston tulisi tarkistaa. IRB-hyväksyntä tutkimukselle ei automaattisesti valtuuta tunnisteiden poistamismenetelmää. Useimmilla akateemisilla terveyskeskuksilla on tietosuojatoimisto tai IRB, joka tarkistaa tunnisteiden poistamismenetelmät. Tämä ohje täydentää, ei korvaa, institutionaalista tarkistusta.

Harkitse asiantuntijalausuntoa vaihtoehtona. HIPAA mahdollistaa myös tunnisteiden poistamisen "asiantuntijalausunnolla" (45 CFR §164.514(b)(1)) — tilastoasiantuntija sertifioi, että uudelleentunnistamisriski on hyvin pieni. Tämä lähestymistapa saattaa olla sopivampi epätavallisel le dataseteille, joissa Safe Harborin kategorinen poistaminen luo metodologisia ongelmia (kaikkien päivämäärien poistaminen tekee ajallisen analyysin mahdottomaksi).

Johtopäätös

Terveydenhuollon tutkimus, joka voisi parantaa potilaiden hoitotuloksia, on tällä hetkellä pullonkaulana HIPAA-tunnisteiden poistamiskustannuksista. Kun ainoa toteuttamiskelpoinen vaihtoehto akateemisille tutkijoille on joko manuaalinen tunnisteiden poistaminen (ei toteuttamiskelpoinen laajassa mittakaavassa) tai kalliit yritystyökalut (apurahabudjettien ulkopuolella), tutkimusdatasetit pysyvät lukittuina tai riittämättömästi anonymisoituina.

Eräkäsittely tokenipohjaisen hinnoittelun avulla tekee 200 000 tietueen tutkimusdatasetin taloudellisesti toteuttamiskelpoiseksi. Sama tilastollinen tarkkuus, joka on saatavilla suurille sairaalajärjestelmille, tulee saavutettavaksi akateemisille terveyskeskuksille, itsenäisille tutkijoille ja pienemmille terveydenhuoltoorganisaatioille, jotka harjoittavat laadunparannustutkimusta.

Lähteet:

Liittyvät Artikkelit

Terveydenhuolto

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

HIPAA Safe Harbor -tunnisteiden poistaminen laajassa mittakaavassa