HIPAA Safe Harbor De-Identifikasie op Skaal: 'n Handleiding vir Gesondheidsorg-Navorsers
'n Akademiese mediese sentrum moet 200 000 ontslagrekords skoonmaak. Die doel: bou 'n hertoelatingsvoor-spelmodel. Die bestaande instrument kos $120 000 per jaar. Die toelagebegroting vir datawerk: $5 000.
Hierdie gaping is algemeen. Gesondheidsorgnavorsing benodig groot datastelle. Hierdie datastelle bevat beskermde gesondheidsinligting (BGI). BGI sluit name, datums, adresse en ander persoonlike besonderhede in. Die verwydering van BGI laat navorsers die data wettiglik gebruik. Maar die instrumente is geprys vir hospitaalstelsels, nie navorsingstoelaes nie.
HIPAA Safe Harbor: Die 18 Identifiseerders
HIPAA se Safe Harbor-metode (45 CFR §164.514(b)) lys 18 BGI-tipes. Almal moet weg voor gesondheiddata sy "beskermde" status verloor. Na verwydering kan navorsing sonder pasientstoestemming voortgaan.
Hier is al 18 tipes:
- Name
- Geografiese data kleiner as staat (poskodes benodig afkorting tot 3 syfers vir klein bevolkings)
- Alle datums behalwe jaar -- toelating, ontslag, geboorte, dood en ander datums
- Telefoonnommers
- Faksnommers
- E-posadresse
- Sosiale sekerheidsnommers
- Mediese rekordnommers
- Gesondheidsplan-begunstigdenommers
- Rekeningnommers
- Sertifikaat- en lisensienommers
- Voertuigidentifiseerders en serienommers
- Toestelidentifiseerders en serienommers
- Web-URL's
- IP-adresse
- Biometriese identifiseerders (vingerafdrukke, stemafdrukke)
- Volgesigfoto's en soortgelyke beelde
- Enige ander unieke identifiserende nommer of kode
Die eerste vyf verskyn in feitlik elke ontslagrekord. Almal moet verwyder of verander word.
Datums benodig spesiale sorg. Elke pasiëntdatum moet die jaar behou maar die spesifieke dag en maand verloor. "15 Maart 2023" word "2023." Jy kan duur as 'n veld behou -- maar slegs nadat die brondatums weg is.
Die Skaalprobleem
Nutswaardige gesondheidsorgdatastelle is groot:
- Hertoelatingsvoor-spelling: 50 000-500 000 ontmoetings
- Behandelingsuitkomswerk: 10 000-100 000 pasiente per toestand
- Geneesmiddeleffektiwiteit: 5 000-50 000 rekords
- Bevolkingsgesondheid: 100 000+ ontmoetings
Handmatige hersiening op hierdie skaal werk nie. 'n 5-minuut-hersiening per rekord neem 250-2 500 werkdae vir 100 000 rekords. Menslike foutsyfers loop 1-5%. Selfs 'n klein miskoers skep HIPAA-risiko. Twee hersieningspersone wat datums verskillend behandel, kan Safe Harbor-status breek. Dit is 'n maklike fout om op 'n groot datastel te maak.
Geoutomatiseerde skoonmaak is die enigste werklike opsie. Dit moet alle 18 tipes opvang oor die gevarieerde formate wat in kliniese notas gevind word.
Die Instrukprysgaping
Ondernemings-instrumente rig hulle op hospitaalstelsels:
- Datavant: $100 000+/jaar
- Veradigm (Allscripts): soortgelyke pryse
- Clinithink CLiX: kontak verkope slegs
- Syntegra (sintetiese data): ondernemingspryse
Hierdie verskaffers verkoop aan groot organisasies met regs- en nakomingspanne. Navorsingstoelaes is nie hul mark nie.
Gratis en oopbroninstrumente bestaan maar verg kundigheid:
- MITRE MIST: gratis, maar benodig swaar opstelling en het beperkte taalondersteuning
- Stanford NLP DEID: navorsingsgraad, benodig Java en koderingsvaardighede
- i2b2 NLP-instrumente: kliniese NLP, opstelling vereis
Die meeste navorsers benodig betroubare BGI-verwydering met eenvoudige opstelling. Oopbroninstrumente benodig kodering- en taalkundige vaardighede om te bedryf. Hulle benodig ook valideringswerk. Ondernemings-instrumente kos meer as wat die meeste toelaes toelaat. Die gaping is werklik en blokkeer navorsing.
Vyf-Stap Bondelproses
Vir 200 000 ontslagrekords werk 'n opeenvolgende bondelaproach goed.
Stap 1: Uitvoer vanuit die EGD. Trek gestruktureerde en ongestruktureerde velde as teks- of PDF-leers per ontmoeting. Epic, Cerner en Meditech ondersteun almal dit. Hulle voer CSV- of HL7-leers uit met kliniese notavelde ingesluit.
Stap 2: Voer bondels van 5 000. Bondels van hierdie grootte is vinnig en klein genoeg vir hersiening by elke stap.
Stel entiteitstipes in vir Safe Harbor:
- PERSON (pasiëntname, familielede in notas)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (adresse, poskodes, stede -- enigiets onder staatsvlak)
- DATE (alle kliniese datums; pasiente ouer as 89 word "> 89")
- HEALTHCARE_ID (versekeringsommers, begunstigdenommers)
- ACCOUNT_NUMBER
Vir meer oor bondel-BGI-skoonmaak vir kliniese notas, sien bondelverwerking van kliniese notas met plaaslike HIPAA-instrumente. Daardie handleiding dek leerformate en entiteitsafstemming in diepte.
Stap 3: Hanteer datums as 'n afsonderlike stap. Behou die jaar. Verwyder die maand en dag. Vervang enige ouderdom bo 89 met "> 89." Seldsame ouderdom-siektepaart kan pasiente heridentifiseer. Bereken duursaamheidsvelde eerste -- hospitaalverblyf, dae tot heropneming. Verwyder dan die brondatums.
Stap 4: Steekproef en hersien elke bondel. Na elke 5 000-rekord-bondel, trek 50 rekords vir menslike hersiening. Kontroleer alle 18 tipes. Soek konteksitems soos navorsersnae in notas of verwysende geneesheerbesonderhede. Bevestig dat datumhantering by Safe Harbor-reels pas. Stel enige gapings reg voor voortgaan.
Stap 5: Dokumenteer en sertifiseer. HIPAA vereis iemand met statistiese kennis om te bevestig dat die heridentifikasierisiko baie klein is. Vir Safe Harbor maak die span wat die verwydering doen, daardie oordeel. Skryf jou entiteitsopstelling en steekproefresultate op. Hou hulle vir IRB-rekords.
Benodig jy 'n ouditspoor vir elke verwydering? Verduidelikbare redigering met HIPAA-ouditspoor dek aanmelding in besonderhede.
Kostevergelyking
Ondernemings-instrument: $120 000/jaar. Dek opstelling, opleiding, onbeperkte verwerking en nakomingsondersteuning.
Bondelverwerking:
- 200 000 rekords x 300 woorde gemiddeld = 60 000 000 tokens
- Teen €0,0001/token: €6 000 in verwerking
- Pro-plan (€180/jaar) of Besigheid-plan (€348/jaar) vir die projek
- Navorserhensiening: 20-40 ure
- Totaal: ongeveer €7 000-8 000
Besparings teenoor die ondernemings-instrument: $111 000-113 000. Navorsing wat gestrem het teen $120 000 word haalbaar teen $7 000.
Sleutelperke
Slegs teks. Hierdie benadering hanteer teksgebaseerde BGI. Beelde, oudio en biometriese data (Safe Harbor-kategoriee 13, 16 en 17) benodig ander instrumente.
Validering is vereis. Geoutomatiseerde instrumente mis sommige items. 'n 0,1%-miskoers op 200 000 rekords laat 200 rekords met lewendige BGI. Dit is 'n werklike HIPAA-risiko. Moenie validering oorslaan nie.
Kontroleer met jou privaatheid-kantoor. IRB-goedkeuring vir die studie dek nie die skoonmaakmetode nie. Die meeste sentrums hersien BGI-verwyderingsbenaderings afsonderlik. Hierdie handleiding voeg by daardie hersiening -- dit vervang dit nie.
Deskundige Bepaling is 'n opsie. HIPAA laat ook skoonmaak via "Deskundige Bepaling" (45 CFR §164.514(b)(1)) toe. 'n Statistiese deskundige sertifiseer dat die heridentifikasierisiko baie klein is. Hierdie pad pas by ongewone datastelle. Dit werk goed wanneer die verwydering van alle datums tydreeksanalise sou breek.
Vir 'n kant-aan-kant-oorsig van geoutomatiseerde BGI-instrumente, sien BGI-opsporingsakkuraatheidsvergelyking.
Gevolgtrekking
Gesondheidsorgnavorsing wat pasiente kan help, is vasgevang agter BGI-verwyderings-kostes. Handmatige hersiening skaleer nie. Ondernemings-instrumente kos meer as wat die meeste toelaes toelaat. Datastelle bly gesluit of onvoldoende skoongemakak.
Token-gebaseerde bondelverwerking maak grootskaalse navorsing haalbaar. Akademiese sentrums en onafhanklike navorsers kry dieselfde akkuraatheid as groot hospitaalstelsels. Op 'n standaard toelagebegroting.