Vissza a BlograEgészségügy

HIPAA Safe Harbor Azonosításmentesítés Nagy...

A HIPAA Safe Harbor módszer 18 konkrét PHI-kategória eltávolítását írja elő. A Szakértői Meghatározás módszer statisztikai igazolást igényel az...

April 20, 20269 perc olvasás
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

HIPAA Safe Harbor Azonosításmentesítés Nagy Léptékben: Gyakorlati Útmutató Egészségügyi Kutatók Számára

Egy akadémiai egészségügyi központ IRB által jóváhagyott kutatási projektje 200 000 elbocsátási rekord azonosításmentesítését igényli egy visszafelvételi előrejelzési ML-modellhez. A meglévő HIPAA azonosításmentesítési eszköz évi 120 000 dollárba kerül. A kutatási ösztöndíjból az adatfeldolgozásra allokált keret: 5 000 dollár.

Ez a forgatókönyv általános. Az egészségügyi kutatás értékes eredményeket hoz — visszafelvételi előrejelzési modellek, kezelési eredményvizsgálatok, gyógyszerhatékonysági elemzések — amelyek nagy, reprezentatív adatkészleteket igényelnek a statisztikai jelentőséghez. Ezek az adatkészletek védett egészségügyi információkat (PHI) tartalmaznak. Az azonosításmentesítés lehetővé teszi a kutatást, miközben védi a betegek adatait. De a nagy léptékű azonosításmentesítés eszközei nagykórházi rendszerek, nem kutatási keretek számára árazzák be.

HIPAA Safe Harbor: Mit Kell Eltávolítani

A HIPAA Safe Harbor azonosításmentesítési módszere (45 CFR §164.514(b)) 18 PHI-kategóriát jelöl meg, amelyeket el kell távolítani, mielőtt az egészségügyi információ elveszíti "védett" státuszát és egyéni engedély nélkül felhasználható kutatáshoz:

  1. Nevek
  2. Földrajzi adatok (államnál kisebb minden adat; az irányítószámokat kis népességű területeken 3 számjegyre kell csonkítani)
  3. Dátumok (az évszám kivételével) — felvétel dátuma, elbocsátás dátuma, születési dátum, halál dátuma, minden egyéb dátum
  4. Telefonszámok
  5. Faxszámok
  6. E-mail-címek
  7. Társadalombiztosítási számok
  8. Orvosi nyilvántartási számok
  9. Egészségügyi terv kedvezményezetti számok
  10. Számlaszámok
  11. Tanúsítvány/engedélyszámok
  12. Jármű-azonosítók és gyártási számok
  13. Eszközazonosítók és gyártási számok
  14. Webes URL-ek
  15. IP-címek
  16. Biometrikus azonosítók (ujjlenyomatok, hangminták)
  17. Teljes arcfotók és hasonló képek
  18. Bármilyen egyéb egyedi azonosítószám, jellemző vagy kód

Az első 5 azonosító (nevek, földrajzi adatok, dátumok, telefonszámok, faxszámok) szinte minden elbocsátási rekordban szerepel. Mindegyiket el kell távolítani vagy módosítani.

Megjegyzés a dátumokhoz: Ez a Safe Harbor legoperatívabb szempontból legösszetettebb követelménye. Nem csak a születési dátum — a beteg ellátásával kapcsolatos összes dátumot meg kell szüntetni, az évszám megtartásával, és az adott dátumot el kell távolítani vagy általánosítani kell. A "2023. március 15-i" dátumú elbocsátási rekordból "2023" lesz. A felvétel időtartama kiszámított mezőként megtartható, ha az alapul szolgáló dátumokat eltávolítják.

A Méretezési Probléma az Akadémiai Kutatásban

Az egészségügyben statisztikailag szignifikáns eredményeket hozó kutatási adatkészletek jellemzően igényelnek:

  • Visszafelvételi előrejelzés: 50 000–500 000 betegtalálkozót
  • Kezelési eredményvizsgálat: 10 000–100 000 beteget kóronként
  • Gyógyszerhatékonysági vizsgálatok: 5 000–50 000 betegrekordot
  • Populációs egészségelemzés: 100 000+ találkozót

A manuális azonosításmentesítés ebben a léptékben nem megvalósítható:

  • Még rekordonként 5 perces felülvizsgálat esetén is 250–2 500 munkanapra van szükség 100 000 rekordhoz
  • A manuális felülvizsgálat 1–5%-os emberi hibaarányt vezet be — elfogadhatatlan kutatási adatkészletek számára, ahol még az azonosítható rekordok kis százaléka is HIPAA-felelősséget teremt
  • Az adatkészleten belüli következetlen alkalmazás (az egyik felülvizsgáló másképpen kezeli a dátumokat, mint a másik) aláássa a Safe Harbor minősítést

Az alternatíva — az automatizált azonosításmentesítés — olyan eszközöket igényel, amelyek elég kifinomultak ahhoz, hogy az összes 18 azonosítókategóriát felismerjék a klinikai dokumentációban található változatos formátumokban.

Jelenlegi Eszközkínálat és az Árkülönbség

Vállalati HIPAA azonosításmentesítő eszközök:

  • Datavant: 100 000 dollár+/év a nagyobb egészségügyi szervezeteknek
  • Veradigm (Allscripts) azonosításmentesítés: hasonló vállalati árak
  • Clinithink CLiX: értékesítési árajánlat szükséges
  • Syntegra (szintetikus adatgenerálás): vállalati árak

Ezek az eszközök évente több millió rekordot feldolgozó kórházi rendszerek számára készültek megfelelőségi csapatokkal, jogi osztályokkal és vállalati beszerzési lehetőségekkel. Nem hozzáférhetők az ösztöndíjkerettel dolgozó akadémiai kutatók számára.

Ingyenes/nyílt forráskódú lehetőségek:

  • MITRE Identification Scrubber Toolkit (MIST): Ingyenes, de jelentős technikai beállítást igényel, és korlátozott a nyelvi támogatása
  • Stanford NLP DEID: Kutatási szintű, Java/programozási szakértelmet igényel
  • i2b2 NLP-eszközök: Klinikai NLP-eszközök, technikai beállítás szükséges

A rés: Az akadémiai egészségügyi központoknak megbízható, pontos azonosításmentesítésre van szükségük minimális technikai beállítással. A nyílt forráskódú eszközök számítógépes nyelvészeti szakértelmet igényelnek a konfigurációhoz és validáláshoz. A vállalati eszközök olyan keretet igényelnek, amellyel a kutatási projektek nem rendelkeznek.

Gyakorlati Megközelítés: Kötegelt Feldolgozás Szekvenciális Futtatásokban

200 000 elbocsátási rekord adatkészletéhez:

1. lépés: Adatexport az EHR-ből Strukturált és strukturálatlan adatmezők exportálása szövegfájlokba vagy PDF-rekordokba betegtalálkozónként. A legtöbb EHR-rendszer (Epic, Cerner, Meditech) támogatja a strukturált adatexportot CSV/HL7 formátumban, külön szövegmezőkkel a klinikai megjegyzésekhez.

2. lépés: Kötegelt azonosításmentesítés szekvenciális futtatásokban Feldolgozás 5 000 rekordos kötegekben — elég nagy a hatékonysághoz, elég kicsi ahhoz, hogy minden szakaszban minőségi felülvizsgálatot tegyen lehetővé.

Azonosítótípusok konfigurálása a HIPAA Safe Harbor-hoz:

  • PERSON (betegnevek, a megjegyzésekben említett hozzátartozónevek)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (államnál kisebb földrajzi egységek — utcacímek, irányítószámok, városok)
  • DATE (minden klinikai dátum — korcsoport-általánosítás alkalmazása: 89 év felettiek "89 év felett" jelölést kapnak)
  • HEALTHCARE_ID (biztosítói tagszámok, kedvezményezetti számok)
  • ACCOUNT_NUMBER

3. lépés: Dátumkezelés (speciális) A dátumok speciális kezelést igényelnek az eltávoláson túl:

  • Az évszám megőrzése
  • A hónap és nap eltávolítása
  • Korcsoport-számítás: ha az életkor > 89, a pontos életkort "> 89"-re kell cserélni a ritka kor-betegség-kombinációkon alapuló újraazonosítás megakadályozása érdekében
  • Időtartam-mezők számítása (tartózkodási idő, napok az újrafelvételig) a dátumkülönbségekből, majd az eredeti dátumok eltávolítása

Ez a lépés speciális utólagos feldolgozó szkriptet igényelhet a származtatott mezők kiszámításához a dátumok eltávolítása előtt.

4. lépés: Validációs mintavétel Minden 5 000 rekordos köteget követően 50 rekord emberi felülvizsgálata:

  • Ellenőrizni, hogy mind a 18 azonosítókategória el lett-e távolítva
  • Ellenőrizni a kontextusspecifikus azonosítókat (kutatónevek a klinikai megjegyzésekben, beutaló orvos adatai)
  • Érvényesíteni, hogy a dátumkezelés megfelel-e a Safe Harbor követelményeinek

5. lépés: Tanúsítás A HIPAA előírja, hogy megfelelő statisztikai vagy tudományos ismeretekkel rendelkező személy megállapítsa, hogy az újraazonosíthatóság valószínűsége nagyon kicsi. A Safe Harbor esetén a 18 kategóriás eltávolítást alkalmazó szervezet igazolja a megfelelőséget. Dokumentálja a folyamatát, az azonosítótípus-konfigurációt és a validációs mintavételt az IRB-nyilvántartásokhoz.

Költségelemzés: Kutatási Keret vs. Vállalati Eszköz

Vállalati HIPAA azonosításmentesítési eszköz: 120 000 dollár/év Tartalmaz beállítást, képzést, korlátlan feldolgozást, megfelelőségi dokumentációs támogatást.

Kötegelt feldolgozási megközelítés:

  • 200 000 rekord × átlagosan 300 szó/rekord = 60 000 000 token
  • 0,0001 €/tokennél: 6 000 € feldolgozási költség
  • Professzionális csomag (180 €/év) vagy Üzleti csomag (348 €/év) a projekt időtartamára
  • Kutató ideje a validációhoz: 20–40 óra posztdoktori díjszabáson
  • Összesen: körülbelül 7 000–8 000 €

Éves megtakarítás a vállalati eszközzel szemben: 111 000–113 000 dollár.

A 120 000 dollárnál megvalósíthatatlan kutatás 7 000 dollárnál megvalósíthatóvá válik — az ösztöndíj fedezi az adatfeldolgozást és a kutató idejét egyaránt.

Fontos Fenntartások

Ez a megközelítés szövegalapú PHI azonosításmentesítésre megfelelő. A képek, hangfelvételek és biometrikus adatok (Safe Harbor 13, 16, 17 kategória) speciális eszközöket igényelnek a szövegfeldolgozáson túl.

Validáció szükséges. Az automatizált eszközök nem 100%-os pontosságúak. 0,1%-os kihagyási arány 200 000 rekordnál 200 rekordot jelent maradék PHI-vel — ez még mindig jelentős HIPAA-kockázat. A validációs mintavételi lépés nem opcionális.

Az intézménye adatvédelmi irodájának felül kell vizsgálnia. A kutatásra vonatkozó IRB-engedély nem engedélyezi automatikusan az azonosításmentesítési megközelítést. A legtöbb akadémiai egészségügyi központnak van adatvédelmi irodája vagy IRB-je, amely felülvizsgálja az azonosításmentesítési módszertanokat. Ez az útmutató kiegészíti, nem helyettesíti az intézményi felülvizsgálatot.

Fontolja meg a Szakértői Meghatározást alternatívaként. A HIPAA az azonosításmentesítést "Szakértői Meghatározás" útján is lehetővé teszi (45 CFR §164.514(b)(1)) — egy statisztikai szakértő igazolja, hogy az újraazonosíthatóság kockázata nagyon kicsi. Ez a megközelítés megfelelőbb lehet szokatlan adatkészletek esetén, ahol a Safe Harbor kategorikus eltávolítása módszertani problémákat okoz (az összes dátum eltávolítása lehetetlenné teszi az időbeli elemzést).

Összefoglalás

Az egészségügyi kutatás, amely javíthatná a betegek kimenetelét, jelenleg a HIPAA azonosításmentesítési költségek miatt torlódik el. Ha az akadémiai kutatók számára az egyetlen megfizethető lehetőség vagy a manuális azonosításmentesítés (nagy léptékben megvalósíthatatlan), vagy a drága vállalati eszközök (az ösztöndíjkereteken túl), a kutatási adatkészletek zárolva maradnak, vagy nem megfelelően azonosításmentesítve.

A token-alapú árazású kötegelt azonosításmentesítés a 200 000 rekordos kutatási adatkészletet gazdaságilag megvalósíthatóvá teszi. A nagy kórházi rendszerek számára elérhető statisztikai pontosság hozzáférhetővé válik az akadémiai egészségügyi központok, független kutatók és kisebb, minőségjavító kutatást végző egészségügyi szervezetek számára.

Források:

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.