HIPAA सुरक्षित आश्रय पर पैमाने पर पहचान हटाना: स्वास्थ्य देखभाल शोधकर्ताओं के लिए एक व्यावहारिक मार्गदर्शिका
एक शैक्षणिक चिकित्सा केंद्र के IRB-स्वीकृत शोध परियोजना के लिए 200,000 डिस्चार्ज रिकॉर्ड की पहचान हटाने की आवश्यकता होती है ताकि पुनः प्रवेश भविष्यवाणी ML मॉडल के लिए। मौजूदा HIPAA पहचान हटाने का उपकरण $120,000 प्रति वर्ष की लागत है। डेटा प्रोसेसिंग के लिए आवंटित शोध अनुदान बजट: $5,000।
यह परिदृश्य सामान्य है। स्वास्थ्य देखभाल अनुसंधान मूल्यवान अंतर्दृष्टि उत्पन्न करता है - पुनः प्रवेश भविष्यवाणी मॉडल, उपचार परिणाम अध्ययन, दवा प्रभावशीलता विश्लेषण - जिन्हें सांख्यिकीय रूप से महत्वपूर्ण होने के लिए बड़े, प्रतिनिधि डेटा सेट की आवश्यकता होती है। उन डेटा सेट में संरक्षित स्वास्थ्य जानकारी (PHI) होती है। पहचान हटाना शोध को सक्षम बनाता है जबकि रोगी की गोपनीयता की रक्षा करता है। लेकिन पैमाने पर पहचान हटाने के लिए उपलब्ध उपकरण बड़े अस्पताल प्रणालियों के लिए मूल्य निर्धारण किए गए हैं, न कि शोध बजट के लिए।
HIPAA सुरक्षित आश्रय: क्या हटाना आवश्यक है
HIPAA का सुरक्षित आश्रय पहचान हटाने की विधि (45 CFR §164.514(b)) 18 श्रेणियों के PHI को निर्दिष्ट करती है जिन्हें हटाना आवश्यक है ताकि स्वास्थ्य जानकारी अपनी "संरक्षित" स्थिति खो दे और इसे व्यक्तिगत प्राधिकरण के बिना शोध के लिए उपयोग किया जा सके:
- नाम
- भौगोलिक डेटा (राज्य से छोटे सभी; छोटे जनसंख्याओं के लिए ज़िप कोड को 3 अंकों में काटने की आवश्यकता होती है)
- तिथियाँ (साल को छोड़कर) - प्रवेश तिथि, डिस्चार्ज तिथि, जन्म तिथि, मृत्यु तिथि, सभी अन्य तिथियाँ
- फोन नंबर
- फैक्स नंबर
- ईमेल पते
- सामाजिक सुरक्षा नंबर
- चिकित्सा रिकॉर्ड नंबर
- स्वास्थ्य योजना लाभार्थी नंबर
- खाता नंबर
- प्रमाण पत्र/लाइसेंस नंबर
- वाहन पहचानकर्ता और अनुक्रमांक
- उपकरण पहचानकर्ता और अनुक्रमांक
- वेब यूआरएल
- आईपी पते
- जैविक पहचानकर्ता (उंगलियों के निशान, आवाज के निशान)
- पूर्ण चेहरे की तस्वीरें और तुलनीय छवियाँ
- कोई अन्य अद्वितीय पहचान संख्या, विशेषता, या कोड
पहले 5 पहचानकर्ता (नाम, भौगोलिक डेटा, तिथियाँ, फोन नंबर, फैक्स नंबर) लगभग हर डिस्चार्ज रिकॉर्ड में दिखाई देते हैं। इन्हें सभी को हटाना या संशोधित करना आवश्यक है।
तिथियों पर नोट: यह सुरक्षित आश्रय की आवश्यकताओं में से एक सबसे संचालनात्मक रूप से जटिल है। केवल जन्म तिथि नहीं - रोगी की देखभाल से संबंधित सभी तिथियों को वर्ष को संरक्षित करना और विशिष्ट तिथि को हटाना या सामान्यीकृत करना आवश्यक है। "15 मार्च, 2023" की तारीख वाला डिस्चार्ज रिकॉर्ड "2023" बन जाता है। प्रवेश अवधि को एक गणना की गई फ़ील्ड के रूप में संरक्षित किया जा सकता है यदि अंतर्निहित तिथियाँ हटा दी जाती हैं।
शैक्षणिक अनुसंधान में पैमाने की समस्या
स्वास्थ्य देखभाल में सांख्यिकीय रूप से महत्वपूर्ण निष्कर्ष उत्पन्न करने वाले शोध डेटा सेट आमतौर पर आवश्यक होते हैं:
- पुनः प्रवेश भविष्यवाणी: 50,000-500,000 रोगी मुठभेड़
- उपचार परिणाम विश्लेषण: स्थिति के अनुसार 10,000-100,000 रोगी
- दवा प्रभावशीलता अध्ययन: 5,000-50,000 रोगी रिकॉर्ड
- जनसंख्या स्वास्थ्य विश्लेषण: 100,000+ मुठभेड़
इस पैमाने पर मैनुअल पहचान हटाना संभव नहीं है:
- प्रत्येक रिकॉर्ड की 5 मिनट की समीक्षा के लिए 100,000 रिकॉर्ड के लिए 250-2,500 कार्य दिवसों की आवश्यकता होती है
- मैनुअल समीक्षा मानव त्रुटि दर 1-5% को पेश करती है - शोध डेटा सेट के लिए अस्वीकार्य जहां पहचान योग्य रिकॉर्ड का एक छोटा प्रतिशत भी HIPAA दायित्व उत्पन्न करता है
- डेटा सेट के भीतर असंगत अनुप्रयोग (एक समीक्षक तिथियों को दूसरे से अलग तरीके से संभालता है) सुरक्षित आश्रय योग्यता को कमजोर करता है
वैकल्पिक - स्वचालित पहचान हटाना - उपकरणों की आवश्यकता होती है जो नैदानिक दस्तावेज़ीकरण में पाए जाने वाले विभिन्न प्रारूपों में सभी 18 पहचानकर्ता श्रेणियों का पता लगाने के लिए पर्याप्त उन्नत हों।
वर्तमान उपकरण परिदृश्य और मूल्य निर्धारण अंतर
एंटरप्राइज HIPAA पहचान हटाने के उपकरण:
- Datavant: बड़े स्वास्थ्य देखभाल संगठनों के लिए $100,000+/वर्ष
- Veradigm (Allscripts) पहचान हटाना: समान एंटरप्राइज मूल्य निर्धारण
- Clinithink CLiX: बिक्री संपर्क मूल्य निर्धारण
- Syntegra (संश्लेषित डेटा उत्पादन): एंटरप्राइज मूल्य निर्धारण
ये उपकरण अस्पताल प्रणालियों के लिए डिज़ाइन किए गए हैं जो वार्षिक रूप से लाखों रिकॉर्ड संसाधित करते हैं जिनमें अनुपालन टीमें, कानूनी विभाग और एंटरप्राइज खरीद क्षमताएँ होती हैं। ये शैक्षणिक शोधकर्ताओं के लिए अनुदान बजट पर सुलभ नहीं हैं।
मुफ्त/ओपन-सोर्स विकल्प:
- MITRE पहचान स्क्रबर टूलकिट (MIST): मुफ्त, लेकिन महत्वपूर्ण तकनीकी सेटअप की आवश्यकता होती है और भाषा समर्थन में सीमित है
- स्टैनफोर्ड NLP DEID: शोध-ग्रेड, Java/programming विशेषज्ञता की आवश्यकता है
- i2b2 NLP उपकरण: नैदानिक NLP उपकरण, तकनीकी सेटअप की आवश्यकता है
अंतर: शैक्षणिक चिकित्सा केंद्रों को न्यूनतम तकनीकी सेटअप के साथ विश्वसनीय, सटीक पहचान हटाने की आवश्यकता है। ओपन-सोर्स उपकरणों को कॉम्प्यूटेशनल लिंग्विस्टिक्स विशेषज्ञता की आवश्यकता होती है ताकि उन्हें कॉन्फ़िगर और मान्य किया जा सके। एंटरप्राइज उपकरणों को ऐसे बजट की आवश्यकता होती है जो शोध परियोजनाओं के पास नहीं होते।
व्यावहारिक दृष्टिकोण: अनुक्रमिक रन में बैच प्रोसेसिंग
200,000 डिस्चार्ज रिकॉर्ड के डेटा सेट के लिए:
चरण 1: EHR से डेटा निर्यात संरचित और असंरचित डेटा फ़ील्ड को प्रत्येक रोगी मुठभेड़ के लिए टेक्स्ट फ़ाइलों या PDF रिकॉर्ड में निर्यात करें। अधिकांश EHR सिस्टम (Epic, Cerner, Meditech) CSV/HL7 प्रारूप में संरचित डेटा निर्यात का समर्थन करते हैं जिसमें नैदानिक नोट्स के लिए अलग टेक्स्ट फ़ील्ड होते हैं।
चरण 2: अनुक्रमिक रन में बैच पहचान हटाना 5,000 रिकॉर्ड के बैच में प्रोसेस करें - पर्याप्त बड़े ताकि प्रभावी हो, प्रत्येक चरण में गुणवत्ता समीक्षा की अनुमति देने के लिए छोटे।
HIPAA सुरक्षित आश्रय के लिए पहचानकर्ता प्रकार कॉन्फ़िगर करें:
- PERSON (रोगी के नाम, नोट्स में उल्लेखित परिवार के सदस्य के नाम)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (राज्य से छोटे भौगोलिक संस्थाएँ - सड़क के पते, ज़िप कोड, शहर)
- DATE (सभी नैदानिक तिथियाँ - उम्र सामान्यीकरण लागू करें: 89 से अधिक रोगी "89 से अधिक" बन जाते हैं)
- HEALTHCARE_ID (बीमा सदस्य नंबर, लाभार्थी नंबर)
- ACCOUNT_NUMBER
चरण 3: तिथि प्रबंधन (विशेषीकृत) तिथियों को हटाने से परे विशेष प्रबंधन की आवश्यकता होती है:
- वर्ष को संरक्षित करें
- महीने और दिन को हटाएँ
- उम्र की गणना के लिए: यदि उम्र > 89, तो दुर्लभ उम्र-रोग संयोजनों के माध्यम से पुनः पहचान को रोकने के लिए सटीक उम्र को "> 89" से बदलें
- तिथि के अंतर से अवधि फ़ील्ड (रुकने की अवधि, पुनः प्रवेश के लिए दिन) की गणना करें, फिर मूल तिथियों को हटा दें
इस चरण में तिथियों को हटाने से पहले व्युत्पन्न फ़ील्ड की गणना करने के लिए एक विशेष पोस्ट-प्रोसेसिंग स्क्रिप्ट की आवश्यकता हो सकती है।
चरण 4: मान्यता नमूना 5,000 रिकॉर्ड के प्रत्येक बैच के बाद, मानव समीक्षा के लिए 50 रिकॉर्ड का नमूना लें:
- सभी 18 पहचानकर्ता श्रेणियों के हटाए जाने की पुष्टि करें
- संदर्भ-विशिष्ट पहचानकर्ताओं की जांच करें (नैदानिक नोट्स में शोधकर्ता के नाम, संदर्भित चिकित्सक के विवरण)
- सुनिश्चित करें कि तिथि प्रबंधन सुरक्षित आश्रय आवश्यकताओं के अनुरूप है
चरण 5: प्रमाणन HIPAA की आवश्यकता है कि एक व्यक्ति जिसके पास उपयुक्त सांख्यिकीय या वैज्ञानिक ज्ञान है, यह निर्धारित करे कि पुनः पहचान की संभावना बहुत कम है। सुरक्षित आश्रय के लिए, 18-श्रेणी हटाने को लागू करने वाली संस्था अनुपालन का प्रमाणित करती है। अपने प्रक्रिया, पहचानकर्ता प्रकार कॉन्फ़िगरेशन, और IRB रिकॉर्ड के लिए मान्यता नमूना का दस्तावेज़ करें।
लागत विश्लेषण: शोध बजट बनाम एंटरप्राइज उपकरण
एंटरप्राइज HIPAA पहचान हटाने का उपकरण: $120,000/वर्ष सेटअप, प्रशिक्षण, अनलिमिटेड प्रोसेसिंग, अनुपालन दस्तावेज़ समर्थन शामिल है।
बैच प्रोसेसिंग दृष्टिकोण:
- 200,000 रिकॉर्ड × औसत 300 शब्द/रिकॉर्ड = 60,000,000 टोकन
- €0.0001/token पर: €6,000 की प्रोसेसिंग लागत
- परियोजना की अवधि के लिए प्रोफेशनल योजना (€180/वर्ष) या बिजनेस योजना (€348/वर्ष)
- मान्यता के लिए शोधकर्ता का समय: 20-40 घंटे पोस्टडॉक दरों पर
- कुल: लगभग €7,000-8,000
एंटरप्राइज उपकरण के मुकाबले वार्षिक बचत: $111,000-113,000।
जो शोध $120,000 में लागत-प्रतिबंधित था, वह $7,000 में संभव हो जाता है - अनुदान बजट डेटा प्रोसेसिंग और शोधकर्ता के समय दोनों को कवर करता है।
महत्वपूर्ण चेतावनियाँ
यह दृष्टिकोण पाठ-आधारित PHI पहचान हटाने के लिए उपयुक्त है। छवियाँ, ऑडियो रिकॉर्डिंग, और जैविक डेटा (सुरक्षित आश्रय श्रेणियाँ 13, 16, 17) पाठ प्रोसेसिंग से परे विशेष उपकरणों की आवश्यकता होती है।
मान्यता की आवश्यकता है। स्वचालित उपकरण 100% सटीक नहीं होते। 200,000 रिकॉर्ड पर 0.1% की चूक दर का अर्थ है 200 रिकॉर्ड में अवशिष्ट PHI - अभी भी एक महत्वपूर्ण HIPAA जोखिम। मान्यता नमूना चरण वैकल्पिक नहीं है।
आपकी संस्था के गोपनीयता कार्यालय को समीक्षा करनी चाहिए। शोध के लिए IRB अनुमोदन पहचान हटाने के दृष्टिकोण को स्वचालित रूप से अधिकृत नहीं करता है। अधिकांश शैक्षणिक चिकित्सा केंद्रों में एक गोपनीयता कार्यालय या IRB होती है जो पहचान हटाने की विधियों की समीक्षा करती है। यह मार्गदर्शन संस्थागत समीक्षा को पूरक करता है, प्रतिस्थापित नहीं करता।
एक वैकल्पिक के रूप में विशेषज्ञ निर्धारण पर विचार करें। HIPAA "विशेषज्ञ निर्धारण" (45 CFR §164.514(b)(1)) के माध्यम से पहचान हटाने की भी अनुमति देता है - एक सांख्यिकीय विशेषज्ञ जो प्रमाणित करता है कि पुनः पहचान का जोखिम बहुत कम है। यह दृष्टिकोण असामान्य डेटा सेट के लिए अधिक उपयुक्त हो सकता है जहां सुरक्षित आश्रय की श्रेणीबद्ध हटाने से विधिक समस्याएँ उत्पन्न होती हैं (सभी तिथियों को हटाना अस्थायी विश्लेषण को असंभव बनाता है)।
निष्कर्ष
स्वास्थ्य देखभाल अनुसंधान जो रोगी के परिणामों में सुधार कर सकता है, वर्तमान में HIPAA पहचान हटाने की लागतों द्वारा बाधित है। जब शैक्षणिक शोधकर्ताओं के लिए एकमात्र सस्ती विकल्प या तो मैनुअल पहचान हटाना (पैमाने पर असंभव) या महंगे एंटरप्राइज उपकरण (अनुदान बजट से परे) होता है, तो शोध डेटा सेट बंद या अपर्याप्त रूप से पहचान हटाए गए रहते हैं।
टोकन-आधारित मूल्य निर्धारण का उपयोग करके बैच पहचान हटाना 200,000 रिकॉर्ड के शोध डेटा सेट को आर्थिक रूप से व्यवहार्य बनाता है। वही सांख्यिकीय सटीकता जो बड़े अस्पताल प्रणालियों के लिए उपलब्ध है, शैक्षणिक चिकित्सा केंद्रों, स्वतंत्र शोधकर्ताओं, और गुणवत्ता सुधार अनुसंधान में लगे छोटे स्वास्थ्य देखभाल संगठनों के लिए सुलभ हो जाती है।
स्रोत: