HIPAA Safe Harbor de-identifikasjon i stor skala: En guide for helseforskere
Et akademisk medisinsk senter trenger a renske 200 000 utskrivningsregistre. Malet: bygge en modell for prediksjon av reinnleggelse. Det eksisterende verktoyets kostnad: 120 000 dollar per ar. Tilskuddsbudsjettet for dataarbeid: 5 000 dollar.
Dette gapet er vanlig. Helseforskning trenger store datasett. Disse datasettene inneholder beskyttet helseinformasjon (PHI). PHI inkluderer navn, datoer, adresser og andre personopplysninger. Fjerning av PHI lar forskere bruke dataene lovlig. Men verktoyene er priset for sykehussystemer, ikke forskningstilskudd.
HIPAA Safe Harbor: De 18 identifikatorene
HIPAAs Safe Harbor-metode (45 CFR seksjon 164.514(b)) lister opp 18 PHI-typer. Alle ma fjernes for helsedata mister sin "beskyttede" status. Etter fjerning kan forskning fortsette uten pasientsamtykke.
Her er alle 18 typer:
- Navn
- Geografiske data mindre enn delstat (postnummer trenger avkorting til 3 sifre for sma befolkninger)
- Alle datoer unntatt ar - innleggelse, utskrivning, fodsel, dod og andre datoer
- Telefonnummer
- Faxnummer
- E-postadresser
- Personnummer
- Medisinske journalnummer
- Helseforsikringsfordelaktighetsnummer
- Kontonummer
- Sertifikat- og lisensnummer
- Kjoretoyidentifikatorer og serienummer
- Enhetsidentifikatorer og serienummer
- Web-URLer
- IP-adresser
- Biometriske identifikatorer (fingeravtrykk, stemmeprinter)
- Helfotografier og lignende bilder
- Ethvert annet unikt identifiserende nummer eller kode
De forste fem vises i naest alle utskrivningsregistre. Alle ma fjernes eller endres.
Datoer trenger saerlig oppmerksomhet. Hver pasientdato ma beholde aret men miste den spesifikke dagen og maneden. "15. mars 2023" blir "2023." Du kan beholde varighet som et felt - men bare etter at kildedatoene er fjernet.
Skalproblemet
Nyttige helsedata-datasett er store:
- Prediksjon av reinnleggelse: 50 000-500 000 oppmoteregistre
- Arbeid med behandlingsresultater: 10 000-100 000 pasienter per tilstand
- Legemiddelefficacitet: 5 000-50 000 registre
- Befolkningshelse: 100 000+ oppmoteregistre
Manuell gjennomgang i denne skalaen fungerer ikke. En 5-minutters gjennomgang per register tar 250-2 500 arbeidsdager for 100 000 registre. Menneskelig feilrate er pa 1-5 %. Selv en liten feilrate skaper HIPAA-risiko. To gjennomgere som behandler datoer forskjellig kan bryte Safe Harbor-statusen. Det er en lett feil a gjore pa et stort datasett.
Automatisert rensing er det eneste reelle alternativet. Det ma fange alle 18 typer pa tvers av de varierte formatene som finnes i kliniske notater.
Verktoyprisesgapet
Bedriftsverktoy retter seg mot sykehussystemer:
- Datavant: 100 000+ dollar per ar
- Veradigm (Allscripts): lignende priser
- Clinithink CLiX: kontakt salg bare
- Syntegra (syntetiske data): bedriftsprising
Disse leverandorene selger til store organisasjoner med juridiske og samsvarsteam. Forskningstilskudd er ikke deres marked.
Gratis og apne kildekodeverktoy eksisterer men krever ekspertise:
- MITRE MIST: gratis, men trenger tung oppsett og har begrenset sprakstotte
- Stanford NLP DEID: forskningsmessig, trenger Java og kodingsferdigheter
- i2b2 NLP-verktoy: klinisk NLP, oppsett krevet
De fleste forskere trenger palitelig PHI-fjerning med enkelt oppsett. Apne kildekodeverktoy trenger koding- og lingvistikkferdigheter for a kjoere. De trenger ogsa valideringsarbeid. Bedriftsverktoy koster mer enn de fleste tilskudd tillater. Gapet er reelt og det blokker forskning.
Fem-trinns satsprosess
For 200 000 utskrivningsregistre fungerer en sekvensiell satstilnaerming godt.
Trinn 1: Eksporter fra EHR. Trekk ut strukturerte og ustrukturerte felter som tekst- eller PDF-filer per oppmote. Epic, Cerner og Meditech stotter alle dette. De eksporterer CSV- eller HL7-filer med kliniske notatfelt inkludert.
Trinn 2: Kjoer satser pa 5 000. Satser i denne storrelsen er raske og sma nok for gjennomgang i hvert trinn.
Angi enhetstyper for Safe Harbor:
- PERSON (pasientnavn, familiemedlemmer i notater)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (adresser, postnummer, byer - alt under statsnivaet)
- DATE (alle kliniske datoer; pasienter over 89 blir "> 89")
- HEALTHCARE_ID (forsikringsnummer, fordelsnummer)
- ACCOUNT_NUMBER
For mer om satssladding av PHI for kliniske notater, se satsbehandling av kliniske notater med lokale HIPAA-verktoy. Den guiden dekker filformater og enhetsjustering i dybden.
Trinn 3: Handter datoer som et separat trinn. Behold aret. Fjern maneden og dagen. Erstatt enhver alder over 89 med "> 89." Sjeldne alder-sykdom-par kan re-identifisere pasienter. Beregn varighetsfelt forst - lengde pa opphold, dager til reinnleggelse. Slett deretter kildedatoene.
Trinn 4: Provegjennomga og sjekk hvert sats. Etter hvert 5 000-registerssats, trekk ut 50 registre for menneskelig gjennomgang. Sjekk alle 18 typer. Se etter kontekstelemenets som forskersnavn i notater eller detaljer om henvisende lege. Bekreft at datohangtering matcher Safe Harbor-regler. Fiks eventuelle gap for du gar videre.
Trinn 5: Dokumenter og sertifiser. HIPAA krever at noen med statistisk kunnskap bekrefter at re-ID-risikoen er svart liten. For Safe Harbor gjor teamet som utforer fjerningen den vurderingen. Skriv opp enhetskonfigurasjonen og samplingresultatene. Oppbevar dem for IRB-registre.
Trenger du et revisjonsspor for hvert fjerningstrinn? Forklarbar sladding med HIPAA-revisjonsspor dekker logging i detalj.
Kostnadssammenligning
Bedriftsverktoy: 120 000 dollar per ar. Dekker oppsett, opplaering, ubegrenset behandling og samsvarsttotte.
Satsbehandling:
- 200 000 registre x 300 ord gjennomsnitt = 60 000 000 tokens
- Pa 0,0001 euro per token: 6 000 euro i behandling
- Pro-plan (180 euro per ar) eller Business-plan (348 euro per ar) for prosjektet
- Forskergjennomgangstid: 20-40 timer
- Totalt: omtrent 7 000-8 000 euro
Besparelser sammenlignet med bedriftsverkoyet: 111 000-113 000 dollar. Forskning som stoppet pa 120 000 dollar blir gjennomforbar pa 7 000 dollar.
Viktige begrensninger
Kun tekst. Denne tilnaermingen handterer tekstbasert PHI. Bilder, lyd og biometriske data (Safe Harbor-kategorier 13, 16 og 17) trenger andre verktoy.
Validering er pakreket. Automatiserte verktoy misser noen elementer. En 0,1 % feilrate pa 200 000 registre etterlater 200 registre med levende PHI. Det er en reell HIPAA-risiko. Ikke hopp over validering.
Sjekk med personvernkontoret ditt. IRB-godkjenning for studien dekker ikke rensingsmetoden. De fleste sentre gjennomgar PHI-fjerningsmetoder separat. Denne guiden er et tillegg til den gjennomgangen - den erstatter den ikke.
Ekspertbestemmelse er et alternativ. HIPAA tillater ogsa rensing via "Ekspertbestemmelse" (45 CFR seksjon 164.514(b)(1)). En statistikkekspert bekrefter at re-identifikasjonsrisikoen er svart liten. Denne veien passer uvanlige datasett. Den fungerer godt nar fjerning av alle datoer ville bryte tidsserieanalyse.
For en sammenligning av automatiserte PHI-verktoy, se noyyaktighetssammenligning for PHI-deteksjon.
Konklusjon
Helseforskning som kunne hjelpe pasienter er fastlast bak PHI-fjerningskostnader. Manuell gjennomgang skalerer ikke. Bedriftsverktoy koster mer enn de fleste tilskudd tillater. Datasett forbir laste eller feilaktig rensket.
Tokenbasert satsbehandling gjor storskala forskning gjennomforbar. Akademiske sentre og uavhengige forskere far samme noyyaktighet som store sykehussystemer. Innenfor et standard tilskuddsbudsjett.