HIPAA Safe Harbor de-identifikasjon i stor skala: En guide for helseforskere

Et akademisk medisinsk senter trenger a renske 200 000 utskrivningsregistre. Malet: bygge en modell for prediksjon av reinnleggelse. Det eksisterende verktoyets kostnad: 120 000 dollar per ar. Tilskuddsbudsjettet for dataarbeid: 5 000 dollar.

Dette gapet er vanlig. Helseforskning trenger store datasett. Disse datasettene inneholder beskyttet helseinformasjon (PHI). PHI inkluderer navn, datoer, adresser og andre personopplysninger. Fjerning av PHI lar forskere bruke dataene lovlig. Men verktoyene er priset for sykehussystemer, ikke forskningstilskudd.

HIPAA Safe Harbor: De 18 identifikatorene

HIPAAs Safe Harbor-metode (45 CFR seksjon 164.514(b)) lister opp 18 PHI-typer. Alle ma fjernes for helsedata mister sin "beskyttede" status. Etter fjerning kan forskning fortsette uten pasientsamtykke.

Her er alle 18 typer:

Navn
Geografiske data mindre enn delstat (postnummer trenger avkorting til 3 sifre for sma befolkninger)
Alle datoer unntatt ar - innleggelse, utskrivning, fodsel, dod og andre datoer
Telefonnummer
Faxnummer
E-postadresser
Personnummer
Medisinske journalnummer
Helseforsikringsfordelaktighetsnummer
Kontonummer
Sertifikat- og lisensnummer
Kjoretoyidentifikatorer og serienummer
Enhetsidentifikatorer og serienummer
Web-URLer
IP-adresser
Biometriske identifikatorer (fingeravtrykk, stemmeprinter)
Helfotografier og lignende bilder
Ethvert annet unikt identifiserende nummer eller kode

De forste fem vises i naest alle utskrivningsregistre. Alle ma fjernes eller endres.

Datoer trenger saerlig oppmerksomhet. Hver pasientdato ma beholde aret men miste den spesifikke dagen og maneden. "15. mars 2023" blir "2023." Du kan beholde varighet som et felt - men bare etter at kildedatoene er fjernet.

Skalproblemet

Nyttige helsedata-datasett er store:

Prediksjon av reinnleggelse: 50 000-500 000 oppmoteregistre
Arbeid med behandlingsresultater: 10 000-100 000 pasienter per tilstand
Legemiddelefficacitet: 5 000-50 000 registre
Befolkningshelse: 100 000+ oppmoteregistre

Manuell gjennomgang i denne skalaen fungerer ikke. En 5-minutters gjennomgang per register tar 250-2 500 arbeidsdager for 100 000 registre. Menneskelig feilrate er pa 1-5 %. Selv en liten feilrate skaper HIPAA-risiko. To gjennomgere som behandler datoer forskjellig kan bryte Safe Harbor-statusen. Det er en lett feil a gjore pa et stort datasett.

Automatisert rensing er det eneste reelle alternativet. Det ma fange alle 18 typer pa tvers av de varierte formatene som finnes i kliniske notater.

Verktoyprisesgapet

Bedriftsverktoy retter seg mot sykehussystemer:

Datavant: 100 000+ dollar per ar
Veradigm (Allscripts): lignende priser
Clinithink CLiX: kontakt salg bare
Syntegra (syntetiske data): bedriftsprising

Disse leverandorene selger til store organisasjoner med juridiske og samsvarsteam. Forskningstilskudd er ikke deres marked.

Gratis og apne kildekodeverktoy eksisterer men krever ekspertise:

MITRE MIST: gratis, men trenger tung oppsett og har begrenset sprakstotte
Stanford NLP DEID: forskningsmessig, trenger Java og kodingsferdigheter
i2b2 NLP-verktoy: klinisk NLP, oppsett krevet

De fleste forskere trenger palitelig PHI-fjerning med enkelt oppsett. Apne kildekodeverktoy trenger koding- og lingvistikkferdigheter for a kjoere. De trenger ogsa valideringsarbeid. Bedriftsverktoy koster mer enn de fleste tilskudd tillater. Gapet er reelt og det blokker forskning.

Fem-trinns satsprosess

For 200 000 utskrivningsregistre fungerer en sekvensiell satstilnaerming godt.

Trinn 1: Eksporter fra EHR. Trekk ut strukturerte og ustrukturerte felter som tekst- eller PDF-filer per oppmote. Epic, Cerner og Meditech stotter alle dette. De eksporterer CSV- eller HL7-filer med kliniske notatfelt inkludert.

Trinn 2: Kjoer satser pa 5 000. Satser i denne storrelsen er raske og sma nok for gjennomgang i hvert trinn.

Angi enhetstyper for Safe Harbor:

PERSON (pasientnavn, familiemedlemmer i notater)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (adresser, postnummer, byer - alt under statsnivaet)
DATE (alle kliniske datoer; pasienter over 89 blir "> 89")
HEALTHCARE_ID (forsikringsnummer, fordelsnummer)
ACCOUNT_NUMBER

For mer om satssladding av PHI for kliniske notater, se satsbehandling av kliniske notater med lokale HIPAA-verktoy. Den guiden dekker filformater og enhetsjustering i dybden.

Trinn 3: Handter datoer som et separat trinn. Behold aret. Fjern maneden og dagen. Erstatt enhver alder over 89 med "> 89." Sjeldne alder-sykdom-par kan re-identifisere pasienter. Beregn varighetsfelt forst - lengde pa opphold, dager til reinnleggelse. Slett deretter kildedatoene.

Trinn 4: Provegjennomga og sjekk hvert sats. Etter hvert 5 000-registerssats, trekk ut 50 registre for menneskelig gjennomgang. Sjekk alle 18 typer. Se etter kontekstelemenets som forskersnavn i notater eller detaljer om henvisende lege. Bekreft at datohangtering matcher Safe Harbor-regler. Fiks eventuelle gap for du gar videre.

Trinn 5: Dokumenter og sertifiser. HIPAA krever at noen med statistisk kunnskap bekrefter at re-ID-risikoen er svart liten. For Safe Harbor gjor teamet som utforer fjerningen den vurderingen. Skriv opp enhetskonfigurasjonen og samplingresultatene. Oppbevar dem for IRB-registre.

Trenger du et revisjonsspor for hvert fjerningstrinn? Forklarbar sladding med HIPAA-revisjonsspor dekker logging i detalj.

Kostnadssammenligning

Bedriftsverktoy: 120 000 dollar per ar. Dekker oppsett, opplaering, ubegrenset behandling og samsvarsttotte.

Satsbehandling:

200 000 registre x 300 ord gjennomsnitt = 60 000 000 tokens
Pa 0,0001 euro per token: 6 000 euro i behandling
Pro-plan (180 euro per ar) eller Business-plan (348 euro per ar) for prosjektet
Forskergjennomgangstid: 20-40 timer
Totalt: omtrent 7 000-8 000 euro

Besparelser sammenlignet med bedriftsverkoyet: 111 000-113 000 dollar. Forskning som stoppet pa 120 000 dollar blir gjennomforbar pa 7 000 dollar.

Viktige begrensninger

Kun tekst. Denne tilnaermingen handterer tekstbasert PHI. Bilder, lyd og biometriske data (Safe Harbor-kategorier 13, 16 og 17) trenger andre verktoy.

Validering er pakreket. Automatiserte verktoy misser noen elementer. En 0,1 % feilrate pa 200 000 registre etterlater 200 registre med levende PHI. Det er en reell HIPAA-risiko. Ikke hopp over validering.

Sjekk med personvernkontoret ditt. IRB-godkjenning for studien dekker ikke rensingsmetoden. De fleste sentre gjennomgar PHI-fjerningsmetoder separat. Denne guiden er et tillegg til den gjennomgangen - den erstatter den ikke.

Ekspertbestemmelse er et alternativ. HIPAA tillater ogsa rensing via "Ekspertbestemmelse" (45 CFR seksjon 164.514(b)(1)). En statistikkekspert bekrefter at re-identifikasjonsrisikoen er svart liten. Denne veien passer uvanlige datasett. Den fungerer godt nar fjerning av alle datoer ville bryte tidsserieanalyse.

For en sammenligning av automatiserte PHI-verktoy, se noyyaktighetssammenligning for PHI-deteksjon.

Konklusjon

Helseforskning som kunne hjelpe pasienter er fastlast bak PHI-fjerningskostnader. Manuell gjennomgang skalerer ikke. Bedriftsverktoy koster mer enn de fleste tilskudd tillater. Datasett forbir laste eller feilaktig rensket.

Tokenbasert satsbehandling gjor storskala forskning gjennomforbar. Akademiske sentre og uavhengige forskere far samme noyyaktighet som store sykehussystemer. Innenfor et standard tilskuddsbudsjett.

Kilder

Relaterte Artikler

Helsevesen

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

Start Gratis Prøveperiode Se Funksjoner

HIPAA Safe Harbor de-identifikasjon i stor skala