50% मिस रेट समस्या
2025 के एक सर्वेक्षण (arXiv:2509.14464) ने क्लिनिकल रिकॉर्ड पर LLM टूल्स का परीक्षण किया। परिणाम बुरे थे। इन टूल्स ने बहुभाषी दस्तावेज़ों में 50% से अधिक क्लिनिकल PHI को मिस किया। कारण सरल है। LLMs टेक्स्ट आउटपुट के लिए बनाए गए हैं। वे उच्च-रिकॉल डिटेक्शन कार्य के लिए नहीं बनाए गए जो HIPAA मांगता है।
HIPAA Safe Harbor 18 संरक्षित पहचानकर्ता प्रकारों को सूचीबद्ध करता है। नाम, तारीखें, फोन नंबर, SSN, MRN, स्वास्थ्य योजना ID, डिवाइस ID, और IP पते। प्रत्येक को अपना डिटेक्शन तर्क चाहिए।
क्लिनिकल नोट्स इसे और कठिन बनाते हैं। यह उदाहरण लें: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." एक वाक्य। पांच संरक्षित पहचानकर्ता। अधिकांश संक्षिप्त रूपों का उपयोग करते हैं। क्लिनिकल अर्थ के लिए बनाया गया मॉडल अक्सर डिटेक्शन कार्य में विफल होता है।
LLMs क्या मिस करते हैं और क्यों
LLM टूल्स क्लिनिकल रिकॉर्ड पर निर्धारित तरीकों से विफल होते हैं।
संक्षिप्त-रूप पहचानकर्ता: क्लिनिकल नोट्स शॉर्टहैंड का उपयोग करते हैं। DOB, MRN, और Pt. सामान्य रूप हैं। क्लिनिकल अर्थ के लिए ट्यून किया गया मॉडल "Pt. John D." को नाम के रूप में फ्लैग नहीं कर सकता। संवेदनशील डेटा निष्कर्षण के लिए एक अलग लक्ष्य चाहिए।
संदर्भ-निर्भर तारीखें: सभी तारीखें समान जोखिम नहीं पैदा करती। "Age 67" एक सॉफ्ट मार्कर है। "DOB 4/12/67" एक प्रत्यक्ष संरक्षित पहचानकर्ता है। प्रवेश तारीख के रूप में "03/15/24" भी संरक्षित है। केवल पैटर्न मिलान पर्याप्त नहीं है।
गैर-US प्रारूप: Cyberhaven (Q4 2025) ने पाया कि सभी ChatGPT इनपुट का 34.8% संवेदनशील डेटा रखता है, जिसमें बहुभाषी PII शामिल है। स्वास्थ्य देखभाल में, इसका मतलब है गैर-US रिकॉर्ड ID, क्षेत्रीय तारीख प्रारूप, और स्थानीय स्वास्थ्य ID प्रकार। US-प्रशिक्षित टूल्स इन्हें लगातार मिस करते हैं।
कस्टम अस्पताल पहचानकर्ता: अस्पताल अपने स्वयं के MRN प्रारूप, कर्मचारी ID, और साइट कोड का उपयोग करते हैं। ये मानक NER प्रशिक्षण डेटा में नहीं हैं। कस्टम एंटिटी समर्थन के बिना कोई टूल उन्हें नहीं ढूंढेगा।
अनुसंधान डेटासेट जोखिम
500,000 नोट्स से अनुसंधान डेटासेट बनाने वाला अस्पताल एक वास्तविक अनुपालन समस्या का सामना करता है। HIPAA डी-पहचाने गए डेटा पर "बहुत कम जोखिम" मानक के लिए कहता है। सभी संरक्षित पहचानकर्ताओं का आधा मिस करने वाला टूल उस मानक को पूरा नहीं कर सकता।
अनुसंधान संग्रह साफ डेटा नहीं हैं। नोट्स कई विभागों, समय अवधियों, और कभी-कभी भाषाओं को कवर करते हैं। बिलिंग डेटा पर काम करने वाला टूल नैरेटिव नोट्स पर विफल हो सकता है। फ्री टेक्स्ट में संवेदनशील डेटा का कोई फ़ील्ड लेबल नहीं होता।
IRB अनुमोदन और अधिक मांग जोड़ता है। संस्थानों को उपयोग की गई विधि, हटाए गए पहचानकर्ता प्रकार, और किए गए चेक दिखाने होंगे। सभी रिकॉर्ड का आधा मिस करने वाला टूल उन मांगों को पूरा नहीं कर सकता।
देखें कि anonym.legal HIPAA कार्य का समर्थन कैसे करता है हमारे अनुपालन अवलोकन और सुरक्षा प्रथाओं में।
तीन-परत समाधान
2025 के सर्वेक्षण ने एक स्पष्ट पैटर्न पाया। सबसे कम मिस रेट वाले टूल्स ने तीन डिटेक्शन परतें उपयोग की।
परत एक – रेगेक्स: संरचित पहचानकर्ता ढूंढता है। SSN, MRN, फोन नंबर, स्वास्थ्य योजना ID। निश्चित प्रारूपों पर विश्वसनीय।
परत दो – NER: ट्रांसफार्मर मॉडल उपयोग करता है। नैरेटिव टेक्स्ट में नाम, तारीखें, और संवेदनशील डेटा ढूंढता है। जहां रेगेक्स नहीं काम करता, वहां काम करता है।
परत तीन – कस्टम एंटिटी: साइट-विशिष्ट रूपों को संभालता है। मालिकाना MRN पैटर्न, कर्मचारी ID, सुविधा कोड। कोई मानक मॉडल इन्हें कवर नहीं करता।
शुद्ध ML टूल्स संक्षिप्त रूपों और गैर-अंग्रेजी टेक्स्ट पर खराब होते हैं। शुद्ध रेगेक्स टूल्स बिना फ़ील्ड लेबल वाले संवेदनशील डेटा को मिस करते हैं। न तो अकेले पर्याप्त है।
सर्वेक्षण में केवल तीन-परत डिज़ाइन ने 5% से कम मिस रेट तक पहुंचा। यही HIPAA Safe Harbor अनुपालन के लिए मानक है।
अगले चरणों के लिए अनुसंधान पर HIPAA Safe Harbor डी-पहचान पर हमारा गाइड देखें।