HIPAA Safe Harbor การลบตัวตนในระดับขนาดใหญ่: คู่มือสำหรับนักวิจัยด้านสุขภาพ

ศูนย์การแพทย์วิชาการต้องทำความสะอาดบันทึกการจำหน่าย 200,000 ราย เป้าหมาย: สร้างแบบจำลองทำนายการรับเข้าซ้ำ เครื่องมือที่มีอยู่มีราคา $120,000 ต่อปี งบประมาณทุนสำหรับงานข้อมูล: $5,000

ช่องว่างนี้เป็นเรื่องปกติ การวิจัยด้านสุขภาพต้องการชุดข้อมูลขนาดใหญ่ ชุดข้อมูลเหล่านั้นเก็บข้อมูลสุขภาพที่ได้รับการคุ้มครอง (PHI) PHI รวมถึงชื่อ วันที่ ที่อยู่ และรายละเอียดส่วนบุคคลอื่นๆ การลบ PHI ช่วยให้นักวิจัยสามารถใช้ข้อมูลได้อย่างถูกกฎหมาย แต่เครื่องมือมีราคาสำหรับระบบโรงพยาบาล ไม่ใช่ทุนวิจัย

HIPAA Safe Harbor: ตัวระบุ 18 ประเภท

วิธี Safe Harbor ของ HIPAA (45 CFR §164.514(b)) แสดงรายการ PHI 18 ประเภท ทั้งหมดต้องถูกลบก่อนที่ข้อมูลสุขภาพจะสูญเสียสถานะ "ที่ได้รับการคุ้มครอง" หลังจากการลบ การวิจัยสามารถดำเนินการได้โดยไม่ต้องได้รับความยินยอมจากผู้ป่วย

นี่คือทั้ง 18 ประเภท:

ชื่อ
ข้อมูลทางภูมิศาสตร์ที่เล็กกว่าระดับรัฐ (รหัสไปรษณีย์ต้องตัดให้เหลือ 3 หลักสำหรับประชากรขนาดเล็ก)
วันที่ทั้งหมดยกเว้นปี — วันรับเข้า วันจำหน่าย วันเกิด วันเสียชีวิต และวันที่อื่นๆ
หมายเลขโทรศัพท์
หมายเลขแฟกซ์
ที่อยู่อีเมล
หมายเลขประกันสังคม
หมายเลขบันทึกทางการแพทย์
หมายเลขผู้รับผลประโยชน์แผนสุขภาพ
หมายเลขบัญชี
หมายเลขใบรับรองและใบอนุญาต
ตัวระบุยานพาหนะและหมายเลขซีเรียล
ตัวระบุอุปกรณ์และหมายเลขซีเรียล
URL เว็บไซต์
ที่อยู่ IP
ตัวระบุไบโอเมตริก (ลายนิ้วมือ ลายเสียง)
ภาพถ่ายใบหน้าเต็มและภาพที่คล้ายคลึงกัน
หมายเลขหรือรหัสที่ระบุตัวตนที่ไม่ซ้ำกันอื่นๆ

ห้าประเภทแรกปรากฏในบันทึกการจำหน่ายเกือบทุกรายการ ทั้งหมดต้องถูกลบหรือเปลี่ยนแปลง

วันที่ต้องการความระมัดระวังเป็นพิเศษ วันที่ผู้ป่วยทุกวันต้องเก็บปีแต่ลบวันและเดือนที่เฉพาะเจาะจง "15 มีนาคม 2023" กลายเป็น "2023" คุณสามารถเก็บระยะเวลาเป็นฟิลด์ได้ — แต่หลังจากวันที่ต้นฉบับถูกลบเท่านั้น

ปัญหาของขนาด

ชุดข้อมูลการวิจัยด้านสุขภาพที่มีประโยชน์มีขนาดใหญ่:

การทำนายการรับเข้าซ้ำ: 50,000–500,000 การพบปะ
งานวิจัยผลการรักษา: 10,000–100,000 ผู้ป่วยต่อสภาวะ
ประสิทธิภาพของยา: 5,000–50,000 บันทึก
สุขภาพประชากร: 100,000+ การพบปะ

การตรวจสอบ manual ในระดับนี้ไม่ได้ผล การตรวจสอบ 5 นาทีต่อบันทึกใช้เวลา 250–2,500 วันทำงานสำหรับ 100,000 บันทึก อัตราข้อผิดพลาดของมนุษย์อยู่ที่ 1–5% แม้แต่อัตราการพลาดเล็กน้อยก็สร้างความเสี่ยง HIPAA ผู้ตรวจสอบสองคนที่จัดการวันที่แตกต่างกันอาจทำลายสถานะ Safe Harbor ซึ่งเป็นข้อผิดพลาดที่เกิดขึ้นได้ง่ายกับชุดข้อมูลขนาดใหญ่

การขัดข้อมูลอัตโนมัติเป็นทางเลือกที่แท้จริงเพียงทางเดียว ต้องจับทั้ง 18 ประเภทในรูปแบบที่หลากหลายที่พบในบันทึกทางคลินิก

ช่องว่างราคาของเครื่องมือ

เครื่องมือระดับองค์กรมุ่งเป้าหมายระบบโรงพยาบาล:

Datavant: $100,000+/ปี
Veradigm (Allscripts): ราคาใกล้เคียงกัน
Clinithink CLiX: ติดต่อฝ่ายขายเท่านั้น
Syntegra (ข้อมูลสังเคราะห์): ราคาระดับองค์กร

ผู้ขายเหล่านี้ขายให้กับองค์กรขนาดใหญ่ที่มีทีมกฎหมายและการปฏิบัติตาม ทุนวิจัยไม่ใช่ตลาดของพวกเขา

เครื่องมือฟรีและโอเพ่นซอร์สมีอยู่แต่ต้องใช้ความเชี่ยวชาญ:

MITRE MIST: ฟรี แต่ต้องการการตั้งค่าหนักและมีการรองรับภาษาจำกัด
Stanford NLP DEID: ระดับวิจัย ต้องใช้ Java และทักษะการเขียนโค้ด
เครื่องมือ i2b2 NLP: NLP ทางคลินิก ต้องการการตั้งค่า

นักวิจัยส่วนใหญ่ต้องการการลบ PHI ที่น่าเชื่อถือพร้อมการตั้งค่าที่ง่าย เครื่องมือโอเพ่นซอร์สต้องใช้ทักษะการเขียนโค้ดและภาษาศาสตร์ในการใช้งาน นอกจากนี้ยังต้องการงานตรวจสอบ เครื่องมือระดับองค์กรมีราคามากกว่าที่ทุนส่วนใหญ่อนุญาต ช่องว่างนี้เป็นจริงและกั้นขวางการวิจัย

กระบวนการแบบกลุ่มห้าขั้นตอน

สำหรับบันทึกการจำหน่าย 200,000 ราย แนวทางแบบกลุ่มตามลำดับทำงานได้ดี

ขั้นที่ 1: ส่งออกจาก EHR ดึงฟิลด์ที่มีโครงสร้างและไม่มีโครงสร้างเป็นไฟล์ข้อความหรือ PDF ต่อการพบปะ Epic, Cerner และ Meditech ทั้งหมดรองรับสิ่งนี้ พวกเขาส่งออกไฟล์ CSV หรือ HL7 พร้อมฟิลด์บันทึกทางคลินิกรวมอยู่ด้วย

ขั้นที่ 2: เรียกใช้กลุ่มละ 5,000 รายการ กลุ่มขนาดนี้เร็วและเล็กพอสำหรับการตรวจสอบในแต่ละขั้น

ตั้งประเภท entity สำหรับ Safe Harbor:

PERSON (ชื่อผู้ป่วย สมาชิกในครอบครัวในบันทึก)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (ที่อยู่ รหัสไปรษณีย์ เมือง — ทุกอย่างที่ต่ำกว่าระดับรัฐ)
DATE (วันที่ทางคลินิกทั้งหมด; ผู้ป่วยที่อายุมากกว่า 89 กลายเป็น "> 89")
HEALTHCARE_ID (หมายเลขประกันภัย หมายเลขผู้รับผลประโยชน์)
ACCOUNT_NUMBER

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการขัด PHI แบบกลุ่มสำหรับบันทึกทางคลินิก ดู การประมวลผลแบบกลุ่มของบันทึกทางคลินิกด้วยเครื่องมือ HIPAA ในเครื่อง คู่มือนั้นครอบคลุมรูปแบบไฟล์และการปรับแต่ง entity อย่างละเอียด

ขั้นที่ 3: จัดการวันที่เป็นขั้นตอนแยกต่างหาก เก็บปี ลบเดือนและวัน แทนที่อายุที่มากกว่า 89 ปีด้วย "> 89" คู่อายุ-โรคที่หายากสามารถระบุตัวตนผู้ป่วยซ้ำได้ คำนวณฟิลด์ระยะเวลาก่อน — ระยะเวลาที่พักในโรงพยาบาล วันจนถึงการรับเข้าซ้ำ จากนั้นลบวันที่ต้นฉบับ

ขั้นที่ 4: ตัวอย่างและตรวจสอบแต่ละกลุ่ม หลังจากแต่ละกลุ่ม 5,000 บันทึก ดึง 50 บันทึกสำหรับการตรวจสอบโดยมนุษย์ ตรวจสอบทั้ง 18 ประเภท มองหารายการบริบท เช่น ชื่อนักวิจัยในบันทึกหรือรายละเอียดแพทย์ผู้ส่งต่อ ยืนยันว่าการจัดการวันที่ตรงตามกฎ Safe Harbor แก้ไขช่องว่างก่อนดำเนินการต่อ

ขั้นที่ 5: จัดทำเอกสารและรับรอง HIPAA กำหนดให้บุคคลที่มีความรู้ทางสถิติยืนยันว่าความเสี่ยงในการระบุตัวตนซ้ำมีน้อยมาก สำหรับ Safe Harbor ทีมที่ทำการลบตัดสินใจ เขียนการกำหนดค่า entity และผลการสุ่มตัวอย่างของคุณ เก็บไว้สำหรับบันทึก IRB

ต้องการร่องรอยการตรวจสอบสำหรับการลบแต่ละครั้งหรือไม่? การปิดบังที่อธิบายได้พร้อมร่องรอยการตรวจสอบ HIPAA ครอบคลุมการบันทึกอย่างละเอียด

การเปรียบเทียบต้นทุน

เครื่องมือระดับองค์กร: $120,000/ปี ครอบคลุมการตั้งค่า การฝึกอบรม การประมวลผลไม่จำกัด และการสนับสนุนการปฏิบัติตาม

การประมวลผลแบบกลุ่ม:

บันทึก 200,000 รายการ × เฉลี่ย 300 คำ = 60,000,000 โทเค็น
ที่ €0.0001/โทเค็น: €6,000 ในการประมวลผล
แผน Pro (€180/ปี) หรือแผน Business (€348/ปี) สำหรับโครงการ
เวลาตรวจสอบของนักวิจัย: 20–40 ชั่วโมง
รวม: ประมาณ €7,000–8,000

การประหยัดเมื่อเทียบกับเครื่องมือระดับองค์กร: $111,000–113,000 การวิจัยที่หยุดชะงักที่ $120,000 กลายเป็นไปได้ที่ $7,000

ข้อจำกัดสำคัญ

เฉพาะข้อความ แนวทางนี้จัดการ PHI ที่อยู่ในรูปแบบข้อความ รูปภาพ เสียง และข้อมูลไบโอเมตริก (หมวดหมู่ Safe Harbor 13, 16 และ 17) ต้องการเครื่องมืออื่น

จำเป็นต้องมีการตรวจสอบ เครื่องมืออัตโนมัติพลาดบางรายการ อัตราการพลาด 0.1% ในบันทึก 200,000 รายการเหลือบันทึก 200 รายการที่มี PHI จริง นั่นคือความเสี่ยง HIPAA จริง อย่าข้ามการตรวจสอบ

ตรวจสอบกับสำนักงานความเป็นส่วนตัวของคุณ การอนุมัติ IRB สำหรับการศึกษาไม่ครอบคลุมวิธีการขัด ศูนย์ส่วนใหญ่ตรวจสอบแนวทางการลบ PHI แยกต่างหาก คู่มือนี้เพิ่มเติมจากการตรวจสอบนั้น — ไม่ได้แทนที่

Expert Determination เป็นทางเลือก HIPAA ยังอนุญาตการขัดผ่าน "Expert Determination" (45 CFR §164.514(b)(1)) ผู้เชี่ยวชาญด้านสถิติรับรองว่าความเสี่ยงในการระบุตัวตนซ้ำมีน้อยมาก เส้นทางนี้เหมาะกับชุดข้อมูลที่ผิดปกติ ทำงานได้ดีเมื่อการลบวันที่ทั้งหมดจะทำลายการวิเคราะห์อนุกรมเวลา

สำหรับการเปรียบเทียบแบบเคียงข้างของเครื่องมือ PHI อัตโนมัติ ดู การเปรียบเทียบความแม่นยำในการตรวจจับ PHI

บทสรุป

การวิจัยด้านสุขภาพที่สามารถช่วยผู้ป่วยได้ติดอยู่หลังต้นทุนการลบ PHI การตรวจสอบ manual ไม่ขยายขนาดได้ เครื่องมือระดับองค์กรมีราคามากกว่าที่ทุนส่วนใหญ่อนุญาต ชุดข้อมูลยังคงถูกล็อคหรือขัดไม่ถูกต้อง

การประมวลผลแบบกลุ่มตามโทเค็นทำให้การวิจัยขนาดใหญ่เป็นไปได้ ศูนย์วิชาการและนักวิจัยอิสระได้รับความแม่นยำเท่ากับระบบโรงพยาบาลขนาดใหญ่ ด้วยงบประมาณทุนมาตรฐาน

HIPAA Safe Harbor การลบตัวตนในระดับขนาดใหญ่