HIPAA Safe Harbor De-Identifikasie op Skaal: 'n Handleiding vir Gesondheidsorg-Navorsers

'n Akademiese mediese sentrum moet 200 000 ontslagrekords skoonmaak. Die doel: bou 'n hertoelatingsvoor-spelmodel. Die bestaande instrument kos $120 000 per jaar. Die toelagebegroting vir datawerk: $5 000.

Hierdie gaping is algemeen. Gesondheidsorgnavorsing benodig groot datastelle. Hierdie datastelle bevat beskermde gesondheidsinligting (BGI). BGI sluit name, datums, adresse en ander persoonlike besonderhede in. Die verwydering van BGI laat navorsers die data wettiglik gebruik. Maar die instrumente is geprys vir hospitaalstelsels, nie navorsingstoelaes nie.

HIPAA Safe Harbor: Die 18 Identifiseerders

HIPAA se Safe Harbor-metode (45 CFR §164.514(b)) lys 18 BGI-tipes. Almal moet weg voor gesondheiddata sy "beskermde" status verloor. Na verwydering kan navorsing sonder pasientstoestemming voortgaan.

Hier is al 18 tipes:

Name
Geografiese data kleiner as staat (poskodes benodig afkorting tot 3 syfers vir klein bevolkings)
Alle datums behalwe jaar -- toelating, ontslag, geboorte, dood en ander datums
Telefoonnommers
Faksnommers
E-posadresse
Sosiale sekerheidsnommers
Mediese rekordnommers
Gesondheidsplan-begunstigdenommers
Rekeningnommers
Sertifikaat- en lisensienommers
Voertuigidentifiseerders en serienommers
Toestelidentifiseerders en serienommers
Web-URL's
IP-adresse
Biometriese identifiseerders (vingerafdrukke, stemafdrukke)
Volgesigfoto's en soortgelyke beelde
Enige ander unieke identifiserende nommer of kode

Die eerste vyf verskyn in feitlik elke ontslagrekord. Almal moet verwyder of verander word.

Datums benodig spesiale sorg. Elke pasiëntdatum moet die jaar behou maar die spesifieke dag en maand verloor. "15 Maart 2023" word "2023." Jy kan duur as 'n veld behou -- maar slegs nadat die brondatums weg is.

Die Skaalprobleem

Nutswaardige gesondheidsorgdatastelle is groot:

Hertoelatingsvoor-spelling: 50 000-500 000 ontmoetings
Behandelingsuitkomswerk: 10 000-100 000 pasiente per toestand
Geneesmiddeleffektiwiteit: 5 000-50 000 rekords
Bevolkingsgesondheid: 100 000+ ontmoetings

Handmatige hersiening op hierdie skaal werk nie. 'n 5-minuut-hersiening per rekord neem 250-2 500 werkdae vir 100 000 rekords. Menslike foutsyfers loop 1-5%. Selfs 'n klein miskoers skep HIPAA-risiko. Twee hersieningspersone wat datums verskillend behandel, kan Safe Harbor-status breek. Dit is 'n maklike fout om op 'n groot datastel te maak.

Geoutomatiseerde skoonmaak is die enigste werklike opsie. Dit moet alle 18 tipes opvang oor die gevarieerde formate wat in kliniese notas gevind word.

Die Instrukprysgaping

Ondernemings-instrumente rig hulle op hospitaalstelsels:

Datavant: $100 000+/jaar
Veradigm (Allscripts): soortgelyke pryse
Clinithink CLiX: kontak verkope slegs
Syntegra (sintetiese data): ondernemingspryse

Hierdie verskaffers verkoop aan groot organisasies met regs- en nakomingspanne. Navorsingstoelaes is nie hul mark nie.

Gratis en oopbroninstrumente bestaan maar verg kundigheid:

MITRE MIST: gratis, maar benodig swaar opstelling en het beperkte taalondersteuning
Stanford NLP DEID: navorsingsgraad, benodig Java en koderingsvaardighede
i2b2 NLP-instrumente: kliniese NLP, opstelling vereis

Die meeste navorsers benodig betroubare BGI-verwydering met eenvoudige opstelling. Oopbroninstrumente benodig kodering- en taalkundige vaardighede om te bedryf. Hulle benodig ook valideringswerk. Ondernemings-instrumente kos meer as wat die meeste toelaes toelaat. Die gaping is werklik en blokkeer navorsing.

Vyf-Stap Bondelproses

Vir 200 000 ontslagrekords werk 'n opeenvolgende bondelaproach goed.

Stap 1: Uitvoer vanuit die EGD. Trek gestruktureerde en ongestruktureerde velde as teks- of PDF-leers per ontmoeting. Epic, Cerner en Meditech ondersteun almal dit. Hulle voer CSV- of HL7-leers uit met kliniese notavelde ingesluit.

Stap 2: Voer bondels van 5 000. Bondels van hierdie grootte is vinnig en klein genoeg vir hersiening by elke stap.

Stel entiteitstipes in vir Safe Harbor:

PERSON (pasiëntname, familielede in notas)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (adresse, poskodes, stede -- enigiets onder staatsvlak)
DATE (alle kliniese datums; pasiente ouer as 89 word "> 89")
HEALTHCARE_ID (versekeringsommers, begunstigdenommers)
ACCOUNT_NUMBER

Vir meer oor bondel-BGI-skoonmaak vir kliniese notas, sien bondelverwerking van kliniese notas met plaaslike HIPAA-instrumente. Daardie handleiding dek leerformate en entiteitsafstemming in diepte.

Stap 3: Hanteer datums as 'n afsonderlike stap. Behou die jaar. Verwyder die maand en dag. Vervang enige ouderdom bo 89 met "> 89." Seldsame ouderdom-siektepaart kan pasiente heridentifiseer. Bereken duursaamheidsvelde eerste -- hospitaalverblyf, dae tot heropneming. Verwyder dan die brondatums.

Stap 4: Steekproef en hersien elke bondel. Na elke 5 000-rekord-bondel, trek 50 rekords vir menslike hersiening. Kontroleer alle 18 tipes. Soek konteksitems soos navorsersnae in notas of verwysende geneesheerbesonderhede. Bevestig dat datumhantering by Safe Harbor-reels pas. Stel enige gapings reg voor voortgaan.

Stap 5: Dokumenteer en sertifiseer. HIPAA vereis iemand met statistiese kennis om te bevestig dat die heridentifikasierisiko baie klein is. Vir Safe Harbor maak die span wat die verwydering doen, daardie oordeel. Skryf jou entiteitsopstelling en steekproefresultate op. Hou hulle vir IRB-rekords.

Benodig jy 'n ouditspoor vir elke verwydering? Verduidelikbare redigering met HIPAA-ouditspoor dek aanmelding in besonderhede.

Kostevergelyking

Ondernemings-instrument: $120 000/jaar. Dek opstelling, opleiding, onbeperkte verwerking en nakomingsondersteuning.

Bondelverwerking:

200 000 rekords x 300 woorde gemiddeld = 60 000 000 tokens
Teen €0,0001/token: €6 000 in verwerking
Pro-plan (€180/jaar) of Besigheid-plan (€348/jaar) vir die projek
Navorserhensiening: 20-40 ure
Totaal: ongeveer €7 000-8 000

Besparings teenoor die ondernemings-instrument: $111 000-113 000. Navorsing wat gestrem het teen $120 000 word haalbaar teen $7 000.

Sleutelperke

Slegs teks. Hierdie benadering hanteer teksgebaseerde BGI. Beelde, oudio en biometriese data (Safe Harbor-kategoriee 13, 16 en 17) benodig ander instrumente.

Validering is vereis. Geoutomatiseerde instrumente mis sommige items. 'n 0,1%-miskoers op 200 000 rekords laat 200 rekords met lewendige BGI. Dit is 'n werklike HIPAA-risiko. Moenie validering oorslaan nie.

Kontroleer met jou privaatheid-kantoor. IRB-goedkeuring vir die studie dek nie die skoonmaakmetode nie. Die meeste sentrums hersien BGI-verwyderingsbenaderings afsonderlik. Hierdie handleiding voeg by daardie hersiening -- dit vervang dit nie.

Deskundige Bepaling is 'n opsie. HIPAA laat ook skoonmaak via "Deskundige Bepaling" (45 CFR §164.514(b)(1)) toe. 'n Statistiese deskundige sertifiseer dat die heridentifikasierisiko baie klein is. Hierdie pad pas by ongewone datastelle. Dit werk goed wanneer die verwydering van alle datums tydreeksanalise sou breek.

Vir 'n kant-aan-kant-oorsig van geoutomatiseerde BGI-instrumente, sien BGI-opsporingsakkuraatheidsvergelyking.

Gevolgtrekking

Gesondheidsorgnavorsing wat pasiente kan help, is vasgevang agter BGI-verwyderings-kostes. Handmatige hersiening skaleer nie. Ondernemings-instrumente kos meer as wat die meeste toelaes toelaat. Datastelle bly gesluit of onvoldoende skoongemakak.

Token-gebaseerde bondelverwerking maak grootskaalse navorsing haalbaar. Akademiese sentrums en onafhanklike navorsers kry dieselfde akkuraatheid as groot hospitaalstelsels. Op 'n standaard toelagebegroting.

Bronne

Verwante Artikels

Gesondheidsorg

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

Begin Gratis Proeflopie Besoek Kenmerke

HIPAA Safe Harbor De-ID op Skaal

HIPAA Safe Harbor De-Identifikasie op Skaal: 'n Handleiding vir Gesondheidsorg-Navorsers

HIPAA Safe Harbor: Die 18 Identifiseerders

Die Skaalprobleem

Die Instrukprysgaping

Vyf-Stap Bondelproses

Kostevergelyking

Sleutelperke

Gevolgtrekking

Bronne

Verwante Artikels

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Gereed om u data te beskerm?

HIPAA Safe Harbor De-ID op Skaal

HIPAA Safe Harbor De-Identifikasie op Skaal: 'n Handleiding vir Gesondheidsorg-Navorsers

HIPAA Safe Harbor: Die 18 Identifiseerders

Die Skaalprobleem

Die Instrukprysgaping

Vyf-Stap Bondelproses

Kostevergelyking

Sleutelperke

Gevolgtrekking

Bronne

Verwante Artikels

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Gereed om u data te beskerm?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow