HIPAA Safe Harbor การลบตัวตนในระดับขนาดใหญ่: คู่มือสำหรับนักวิจัยด้านสุขภาพ
ศูนย์การแพทย์วิชาการต้องทำความสะอาดบันทึกการจำหน่าย 200,000 ราย เป้าหมาย: สร้างแบบจำลองทำนายการรับเข้าซ้ำ เครื่องมือที่มีอยู่มีราคา $120,000 ต่อปี งบประมาณทุนสำหรับงานข้อมูล: $5,000
ช่องว่างนี้เป็นเรื่องปกติ การวิจัยด้านสุขภาพต้องการชุดข้อมูลขนาดใหญ่ ชุดข้อมูลเหล่านั้นเก็บข้อมูลสุขภาพที่ได้รับการคุ้มครอง (PHI) PHI รวมถึงชื่อ วันที่ ที่อยู่ และรายละเอียดส่วนบุคคลอื่นๆ การลบ PHI ช่วยให้นักวิจัยสามารถใช้ข้อมูลได้อย่างถูกกฎหมาย แต่เครื่องมือมีราคาสำหรับระบบโรงพยาบาล ไม่ใช่ทุนวิจัย
HIPAA Safe Harbor: ตัวระบุ 18 ประเภท
วิธี Safe Harbor ของ HIPAA (45 CFR §164.514(b)) แสดงรายการ PHI 18 ประเภท ทั้งหมดต้องถูกลบก่อนที่ข้อมูลสุขภาพจะสูญเสียสถานะ "ที่ได้รับการคุ้มครอง" หลังจากการลบ การวิจัยสามารถดำเนินการได้โดยไม่ต้องได้รับความยินยอมจากผู้ป่วย
นี่คือทั้ง 18 ประเภท:
- ชื่อ
- ข้อมูลทางภูมิศาสตร์ที่เล็กกว่าระดับรัฐ (รหัสไปรษณีย์ต้องตัดให้เหลือ 3 หลักสำหรับประชากรขนาดเล็ก)
- วันที่ทั้งหมดยกเว้นปี — วันรับเข้า วันจำหน่าย วันเกิด วันเสียชีวิต และวันที่อื่นๆ
- หมายเลขโทรศัพท์
- หมายเลขแฟกซ์
- ที่อยู่อีเมล
- หมายเลขประกันสังคม
- หมายเลขบันทึกทางการแพทย์
- หมายเลขผู้รับผลประโยชน์แผนสุขภาพ
- หมายเลขบัญชี
- หมายเลขใบรับรองและใบอนุญาต
- ตัวระบุยานพาหนะและหมายเลขซีเรียล
- ตัวระบุอุปกรณ์และหมายเลขซีเรียล
- URL เว็บไซต์
- ที่อยู่ IP
- ตัวระบุไบโอเมตริก (ลายนิ้วมือ ลายเสียง)
- ภาพถ่ายใบหน้าเต็มและภาพที่คล้ายคลึงกัน
- หมายเลขหรือรหัสที่ระบุตัวตนที่ไม่ซ้ำกันอื่นๆ
ห้าประเภทแรกปรากฏในบันทึกการจำหน่ายเกือบทุกรายการ ทั้งหมดต้องถูกลบหรือเปลี่ยนแปลง
วันที่ต้องการความระมัดระวังเป็นพิเศษ วันที่ผู้ป่วยทุกวันต้องเก็บปีแต่ลบวันและเดือนที่เฉพาะเจาะจง "15 มีนาคม 2023" กลายเป็น "2023" คุณสามารถเก็บระยะเวลาเป็นฟิลด์ได้ — แต่หลังจากวันที่ต้นฉบับถูกลบเท่านั้น
ปัญหาของขนาด
ชุดข้อมูลการวิจัยด้านสุขภาพที่มีประโยชน์มีขนาดใหญ่:
- การทำนายการรับเข้าซ้ำ: 50,000–500,000 การพบปะ
- งานวิจัยผลการรักษา: 10,000–100,000 ผู้ป่วยต่อสภาวะ
- ประสิทธิภาพของยา: 5,000–50,000 บันทึก
- สุขภาพประชากร: 100,000+ การพบปะ
การตรวจสอบ manual ในระดับนี้ไม่ได้ผล การตรวจสอบ 5 นาทีต่อบันทึกใช้เวลา 250–2,500 วันทำงานสำหรับ 100,000 บันทึก อัตราข้อผิดพลาดของมนุษย์อยู่ที่ 1–5% แม้แต่อัตราการพลาดเล็กน้อยก็สร้างความเสี่ยง HIPAA ผู้ตรวจสอบสองคนที่จัดการวันที่แตกต่างกันอาจทำลายสถานะ Safe Harbor ซึ่งเป็นข้อผิดพลาดที่เกิดขึ้นได้ง่ายกับชุดข้อมูลขนาดใหญ่
การขัดข้อมูลอัตโนมัติเป็นทางเลือกที่แท้จริงเพียงทางเดียว ต้องจับทั้ง 18 ประเภทในรูปแบบที่หลากหลายที่พบในบันทึกทางคลินิก
ช่องว่างราคาของเครื่องมือ
เครื่องมือระดับองค์กรมุ่งเป้าหมายระบบโรงพยาบาล:
- Datavant: $100,000+/ปี
- Veradigm (Allscripts): ราคาใกล้เคียงกัน
- Clinithink CLiX: ติดต่อฝ่ายขายเท่านั้น
- Syntegra (ข้อมูลสังเคราะห์): ราคาระดับองค์กร
ผู้ขายเหล่านี้ขายให้กับองค์กรขนาดใหญ่ที่มีทีมกฎหมายและการปฏิบัติตาม ทุนวิจัยไม่ใช่ตลาดของพวกเขา
เครื่องมือฟรีและโอเพ่นซอร์สมีอยู่แต่ต้องใช้ความเชี่ยวชาญ:
- MITRE MIST: ฟรี แต่ต้องการการตั้งค่าหนักและมีการรองรับภาษาจำกัด
- Stanford NLP DEID: ระดับวิจัย ต้องใช้ Java และทักษะการเขียนโค้ด
- เครื่องมือ i2b2 NLP: NLP ทางคลินิก ต้องการการตั้งค่า
นักวิจัยส่วนใหญ่ต้องการการลบ PHI ที่น่าเชื่อถือพร้อมการตั้งค่าที่ง่าย เครื่องมือโอเพ่นซอร์สต้องใช้ทักษะการเขียนโค้ดและภาษาศาสตร์ในการใช้งาน นอกจากนี้ยังต้องการงานตรวจสอบ เครื่องมือระดับองค์กรมีราคามากกว่าที่ทุนส่วนใหญ่อนุญาต ช่องว่างนี้เป็นจริงและกั้นขวางการวิจัย
กระบวนการแบบกลุ่มห้าขั้นตอน
สำหรับบันทึกการจำหน่าย 200,000 ราย แนวทางแบบกลุ่มตามลำดับทำงานได้ดี
ขั้นที่ 1: ส่งออกจาก EHR ดึงฟิลด์ที่มีโครงสร้างและไม่มีโครงสร้างเป็นไฟล์ข้อความหรือ PDF ต่อการพบปะ Epic, Cerner และ Meditech ทั้งหมดรองรับสิ่งนี้ พวกเขาส่งออกไฟล์ CSV หรือ HL7 พร้อมฟิลด์บันทึกทางคลินิกรวมอยู่ด้วย
ขั้นที่ 2: เรียกใช้กลุ่มละ 5,000 รายการ กลุ่มขนาดนี้เร็วและเล็กพอสำหรับการตรวจสอบในแต่ละขั้น
ตั้งประเภท entity สำหรับ Safe Harbor:
- PERSON (ชื่อผู้ป่วย สมาชิกในครอบครัวในบันทึก)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (ที่อยู่ รหัสไปรษณีย์ เมือง — ทุกอย่างที่ต่ำกว่าระดับรัฐ)
- DATE (วันที่ทางคลินิกทั้งหมด; ผู้ป่วยที่อายุมากกว่า 89 กลายเป็น "> 89")
- HEALTHCARE_ID (หมายเลขประกันภัย หมายเลขผู้รับผลประโยชน์)
- ACCOUNT_NUMBER
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการขัด PHI แบบกลุ่มสำหรับบันทึกทางคลินิก ดู การประมวลผลแบบกลุ่มของบันทึกทางคลินิกด้วยเครื่องมือ HIPAA ในเครื่อง คู่มือนั้นครอบคลุมรูปแบบไฟล์และการปรับแต่ง entity อย่างละเอียด
ขั้นที่ 3: จัดการวันที่เป็นขั้นตอนแยกต่างหาก เก็บปี ลบเดือนและวัน แทนที่อายุที่มากกว่า 89 ปีด้วย "> 89" คู่อายุ-โรคที่หายากสามารถระบุตัวตนผู้ป่วยซ้ำได้ คำนวณฟิลด์ระยะเวลาก่อน — ระยะเวลาที่พักในโรงพยาบาล วันจนถึงการรับเข้าซ้ำ จากนั้นลบวันที่ต้นฉบับ
ขั้นที่ 4: ตัวอย่างและตรวจสอบแต่ละกลุ่ม หลังจากแต่ละกลุ่ม 5,000 บันทึก ดึง 50 บันทึกสำหรับการตรวจสอบโดยมนุษย์ ตรวจสอบทั้ง 18 ประเภท มองหารายการบริบท เช่น ชื่อนักวิจัยในบันทึกหรือรายละเอียดแพทย์ผู้ส่งต่อ ยืนยันว่าการจัดการวันที่ตรงตามกฎ Safe Harbor แก้ไขช่องว่างก่อนดำเนินการต่อ
ขั้นที่ 5: จัดทำเอกสารและรับรอง HIPAA กำหนดให้บุคคลที่มีความรู้ทางสถิติยืนยันว่าความเสี่ยงในการระบุตัวตนซ้ำมีน้อยมาก สำหรับ Safe Harbor ทีมที่ทำการลบตัดสินใจ เขียนการกำหนดค่า entity และผลการสุ่มตัวอย่างของคุณ เก็บไว้สำหรับบันทึก IRB
ต้องการร่องรอยการตรวจสอบสำหรับการลบแต่ละครั้งหรือไม่? การปิดบังที่อธิบายได้พร้อมร่องรอยการตรวจสอบ HIPAA ครอบคลุมการบันทึกอย่างละเอียด
การเปรียบเทียบต้นทุน
เครื่องมือระดับองค์กร: $120,000/ปี ครอบคลุมการตั้งค่า การฝึกอบรม การประมวลผลไม่จำกัด และการสนับสนุนการปฏิบัติตาม
การประมวลผลแบบกลุ่ม:
- บันทึก 200,000 รายการ × เฉลี่ย 300 คำ = 60,000,000 โทเค็น
- ที่ €0.0001/โทเค็น: €6,000 ในการประมวลผล
- แผน Pro (€180/ปี) หรือแผน Business (€348/ปี) สำหรับโครงการ
- เวลาตรวจสอบของนักวิจัย: 20–40 ชั่วโมง
- รวม: ประมาณ €7,000–8,000
การประหยัดเมื่อเทียบกับเครื่องมือระดับองค์กร: $111,000–113,000 การวิจัยที่หยุดชะงักที่ $120,000 กลายเป็นไปได้ที่ $7,000
ข้อจำกัดสำคัญ
เฉพาะข้อความ แนวทางนี้จัดการ PHI ที่อยู่ในรูปแบบข้อความ รูปภาพ เสียง และข้อมูลไบโอเมตริก (หมวดหมู่ Safe Harbor 13, 16 และ 17) ต้องการเครื่องมืออื่น
จำเป็นต้องมีการตรวจสอบ เครื่องมืออัตโนมัติพลาดบางรายการ อัตราการพลาด 0.1% ในบันทึก 200,000 รายการเหลือบันทึก 200 รายการที่มี PHI จริง นั่นคือความเสี่ยง HIPAA จริง อย่าข้ามการตรวจสอบ
ตรวจสอบกับสำนักงานความเป็นส่วนตัวของคุณ การอนุมัติ IRB สำหรับการศึกษาไม่ครอบคลุมวิธีการขัด ศูนย์ส่วนใหญ่ตรวจสอบแนวทางการลบ PHI แยกต่างหาก คู่มือนี้เพิ่มเติมจากการตรวจสอบนั้น — ไม่ได้แทนที่
Expert Determination เป็นทางเลือก HIPAA ยังอนุญาตการขัดผ่าน "Expert Determination" (45 CFR §164.514(b)(1)) ผู้เชี่ยวชาญด้านสถิติรับรองว่าความเสี่ยงในการระบุตัวตนซ้ำมีน้อยมาก เส้นทางนี้เหมาะกับชุดข้อมูลที่ผิดปกติ ทำงานได้ดีเมื่อการลบวันที่ทั้งหมดจะทำลายการวิเคราะห์อนุกรมเวลา
สำหรับการเปรียบเทียบแบบเคียงข้างของเครื่องมือ PHI อัตโนมัติ ดู การเปรียบเทียบความแม่นยำในการตรวจจับ PHI
บทสรุป
การวิจัยด้านสุขภาพที่สามารถช่วยผู้ป่วยได้ติดอยู่หลังต้นทุนการลบ PHI การตรวจสอบ manual ไม่ขยายขนาดได้ เครื่องมือระดับองค์กรมีราคามากกว่าที่ทุนส่วนใหญ่อนุญาต ชุดข้อมูลยังคงถูกล็อคหรือขัดไม่ถูกต้อง
การประมวลผลแบบกลุ่มตามโทเค็นทำให้การวิจัยขนาดใหญ่เป็นไปได้ ศูนย์วิชาการและนักวิจัยอิสระได้รับความแม่นยำเท่ากับระบบโรงพยาบาลขนาดใหญ่ ด้วยงบประมาณทุนมาตรฐาน