ब्लॉग पर वापस जाएँस्वास्थ्य देखभाल

LLMs 50% क्लिनिकल PHI क्यों चूकते हैं...

2025 के एक अध्ययन में पाया गया कि LLMs बहुभाषी दस्तावेजों में 50% से अधिक क्लिनिकल PHI चूक जाते हैं। ChatGPT इनपुट का 34.8% संवेदनशील डेटा शामिल...

April 2, 20269 मिनट पढ़ें
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

50% चूक दर की समस्या

2025 के LLM-आधारित डि-आइडेंटिफिकेशन उपकरणों के सर्वेक्षण (arXiv:2509.14464) में पाया गया कि सामान्य उद्देश्य वाले LLM उपकरण बहुभाषी दस्तावेजों में 50% से अधिक क्लिनिकल PHI चूक जाते हैं। यह आंकड़ा एक मौलिक आर्किटेक्चरल असंगति को दर्शाता है: LLMs भाषा समझने और उत्पन्न करने के लिए डिज़ाइन किए गए हैं, न कि संरचित, उच्च-रिकॉल पहचान कार्य के लिए जिसकी आवश्यकता HIPAA डि-आइडेंटिफिकेशन को होती है।

HIPAA प्राइवेसी नियम का सुरक्षित बंदरगाह विधि 18 विशिष्ट पहचानकर्ता श्रेणियों को हटाने की आवश्यकता होती है: नाम, भौगोलिक डेटा, तिथियाँ, फोन नंबर, फैक्स नंबर, ईमेल पते, SSNs, मेडिकल रिकॉर्ड नंबर, स्वास्थ्य योजना लाभार्थी नंबर, खाता नंबर, प्रमाणपत्र/लाइसेंस नंबर, VINs, डिवाइस पहचानकर्ता, वेब URLs, IP पते, बायोमेट्रिक पहचानकर्ता, पूर्ण चेहरे की तस्वीरें, और कोई अन्य अद्वितीय पहचान संख्या या कोड। इन श्रेणियों में से प्रत्येक के पास संरचित प्रारूप होते हैं जिन्हें विशिष्ट पहचान तर्क की आवश्यकता होती है।

क्लिनिकल नोट्स वह स्थान हैं जहाँ कठिनाई केंद्रित होती है। एक सामान्य क्लिनिकल नोट के अंश पर विचार करें: "Pt. John D., DOB 4/12/67, MRN 1234567, 03/15/24 को सीने में दर्द के साथ ED में पेश हुए। पूर्व Hx: HTN, DM। डॉ. स्मिथ ने ECG का आदेश दिया।" इस एक वाक्य में एक नाम, जन्म तिथि, MRN, प्रवेश तिथि, और चिकित्सक शामिल हैं - पांच HIPAA पहचानकर्ता, कुछ संक्षिप्त रूप में, क्लिनिकल शॉर्टहैंड में एम्बेडेड।

LLMs क्या चूकते हैं और क्यों

सामान्य उद्देश्य वाले LLMs क्लिनिकल PHI पर पूर्वानुमानित पैटर्न में विफल होते हैं।

संक्षिप्त पहचानकर्ता: क्लिनिकल नोट्स मानक संक्षिप्त रूपों का उपयोग करते हैं (DOB जन्म तिथि के लिए, MRN मेडिकल रिकॉर्ड नंबर के लिए, Pt. रोगी के लिए) जिन्हें संदर्भ-मुक्त NER PII मार्कर के रूप में पहचान नहीं सकता। ऊपर दिए गए नोट को सामान्य समझ के लिए पढ़ने वाला LLM क्लिनिकल अर्थ को समझता है; PHI निष्कर्षण के लिए कार्यरत LLM "Pt. John D." को आंशिक नाम पैटर्न के रूप में चूक सकता है।

संदर्भ-निर्भर तिथियाँ: क्लिनिकल नोट्स में तिथियों का विशेष HIPAA महत्व होता है। "उम्र 67" एक आंशिक डि-आईडेंटिफायर है जिसे नोट किया जाना चाहिए। "DOB 4/12/67" PHI है। "03/15/24" एक प्रवेश तिथि के रूप में PHI है। इनकी आवश्यकता संदर्भ-जानकारी तिथि निष्कर्षण की होती है, केवल तिथि पैटर्न मिलान की नहीं।

क्षेत्रीय पहचानकर्ता प्रारूप: Cyberhaven द्वारा किए गए शोध (Q4 2025) में पाया गया कि ChatGPT इनपुट का 34.8% संवेदनशील डेटा शामिल करता है जिसमें बहुभाषी PII शामिल है। स्वास्थ्य देखभाल संदर्भों में, इसमें गैर-यूएस मेडिकल रिकॉर्ड प्रारूप, अंतरराष्ट्रीय तिथि परंपराएँ, और देश-विशिष्ट स्वास्थ्य पहचानकर्ता प्रारूप शामिल हैं जिन्हें यूएस-केंद्रित प्रणालियाँ चूक जाती हैं।

कस्टम संस्थागत पहचानकर्ता: स्वास्थ्य प्रणालियाँ स्वामित्व वाले MRN प्रारूप, कर्मचारी आईडी, और सुविधा कोड का उपयोग करती हैं जो मानक NER प्रशिक्षण डेटा का हिस्सा नहीं होते। एक प्रणाली जिसमें कस्टम एंटिटी प्रकार का समर्थन नहीं है, इन्हें पहचान नहीं सकती।

अनुसंधान डेटासेट अनुपालन समस्या

500,000 क्लिनिकल नोट्स से एक डि-आइडेंटिफाइड अनुसंधान डेटासेट बनाने वाला एक अस्पताल प्रणाली एक यौगिक जोखिम का सामना करता है। HIPAA की आवश्यकता है कि डि-आइडेंटिफाइड अनुसंधान डेटासेट "बहुत छोटे जोखिम" मानक को सुरक्षित बंदरगाह विधि के तहत या विशेषज्ञ निर्धारण के तहत सांख्यिकीय दृष्टिकोण को पूरा करें। एक प्रणाली जो 50% PHI चूकती है, एक ऐसा डेटासेट उत्पन्न करती है जो इस मानक को विफल करती है - अनुसंधान संस्थान को OCR प्रवर्तन और IRB अनुपालन विफलताओं के लिए उजागर करती है।

अनुसंधान डेटासेट में क्लिनिकल नोट्स समान नहीं होते। वे विभिन्न विभागों (कार्डियोलॉजी, ऑन्कोलॉजी, मनोचिकित्सा), विभिन्न दस्तावेज़ीकरण शैलियों, विभिन्न समय अवधियों, और - बहुभाषी स्वास्थ्य प्रणालियों में - विभिन्न भाषाओं में फैले होते हैं। एक डि-आइडेंटिफिकेशन प्रणाली जो संरचित बिलिंग डेटा पर उचित प्रदर्शन करती है, अनियोजित मनोचिकित्सीय प्रगति नोट्स पर विफल हो सकती है जहाँ PHI नैरेटीव संदर्भ में प्रकट होता है न कि लेबल वाले क्षेत्रों में।

हाइब्रिड डिटेक्शन आवश्यकता

2025 के अनुसंधान सर्वेक्षण ने लगातार पैटर्न की पहचान की: उच्चतम PHI रिकॉल वाली प्रणालियाँ संरचित पहचानकर्ता पहचान (SSNs, MRNs, फोन नंबरों के लिए regex) को संदर्भ NER (नैरेटीव संदर्भ में नाम, तिथियों के लिए ट्रांसफार्मर-आधारित मॉडल) और कस्टम एंटिटी समर्थन (संस्थान-विशिष्ट पहचानकर्ता) के साथ जोड़ती हैं।

शुद्ध ML दृष्टिकोण सामान्य पहचानकर्ताओं पर उच्च रिकॉल प्राप्त करते हैं जो अच्छी तरह से स्वरूपित पाठ में होते हैं लेकिन संक्षिप्त रूपों, दुर्लभ पहचानकर्ता प्रकारों, और गैर-अंग्रेजी पाठ पर degrade होते हैं। शुद्ध regex दृष्टिकोण संरचित पहचानकर्ताओं पर उच्च रिकॉल प्राप्त करते हैं लेकिन संदर्भ PHI (एक चिकित्सक का नाम जो नैरेटीव में बिना शीर्षक उपसर्ग के उल्लेखित होता है) को चूक जाते हैं।

हाइब्रिड तीन-स्तरीय आर्किटेक्चर - संरचित पहचानकर्ताओं के लिए regex, संदर्भ PHI के लिए NLP, और क्रॉस-भाषाई और संक्षिप्त रूपों के लिए ट्रांसफार्मर मॉडल - वह पैटर्न है जिसे सर्वेक्षण ने HIPAA सुरक्षित बंदरगाह अनुपालन के लिए उपयुक्त 5% से कम चूक दर प्राप्त करने के रूप में पहचाना है।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।