50% मिस रेट समस्या

2025 के एक सर्वेक्षण (arXiv:2509.14464) ने क्लिनिकल रिकॉर्ड पर LLM टूल्स का परीक्षण किया। परिणाम बुरे थे। इन टूल्स ने बहुभाषी दस्तावेज़ों में 50% से अधिक क्लिनिकल PHI को मिस किया। कारण सरल है। LLMs टेक्स्ट आउटपुट के लिए बनाए गए हैं। वे उच्च-रिकॉल डिटेक्शन कार्य के लिए नहीं बनाए गए जो HIPAA मांगता है।

HIPAA Safe Harbor 18 संरक्षित पहचानकर्ता प्रकारों को सूचीबद्ध करता है। नाम, तारीखें, फोन नंबर, SSN, MRN, स्वास्थ्य योजना ID, डिवाइस ID, और IP पते। प्रत्येक को अपना डिटेक्शन तर्क चाहिए।

क्लिनिकल नोट्स इसे और कठिन बनाते हैं। यह उदाहरण लें: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." एक वाक्य। पांच संरक्षित पहचानकर्ता। अधिकांश संक्षिप्त रूपों का उपयोग करते हैं। क्लिनिकल अर्थ के लिए बनाया गया मॉडल अक्सर डिटेक्शन कार्य में विफल होता है।

LLMs क्या मिस करते हैं और क्यों

LLM टूल्स क्लिनिकल रिकॉर्ड पर निर्धारित तरीकों से विफल होते हैं।

संक्षिप्त-रूप पहचानकर्ता: क्लिनिकल नोट्स शॉर्टहैंड का उपयोग करते हैं। DOB, MRN, और Pt. सामान्य रूप हैं। क्लिनिकल अर्थ के लिए ट्यून किया गया मॉडल "Pt. John D." को नाम के रूप में फ्लैग नहीं कर सकता। संवेदनशील डेटा निष्कर्षण के लिए एक अलग लक्ष्य चाहिए।

संदर्भ-निर्भर तारीखें: सभी तारीखें समान जोखिम नहीं पैदा करती। "Age 67" एक सॉफ्ट मार्कर है। "DOB 4/12/67" एक प्रत्यक्ष संरक्षित पहचानकर्ता है। प्रवेश तारीख के रूप में "03/15/24" भी संरक्षित है। केवल पैटर्न मिलान पर्याप्त नहीं है।

गैर-US प्रारूप: Cyberhaven (Q4 2025) ने पाया कि सभी ChatGPT इनपुट का 34.8% संवेदनशील डेटा रखता है, जिसमें बहुभाषी PII शामिल है। स्वास्थ्य देखभाल में, इसका मतलब है गैर-US रिकॉर्ड ID, क्षेत्रीय तारीख प्रारूप, और स्थानीय स्वास्थ्य ID प्रकार। US-प्रशिक्षित टूल्स इन्हें लगातार मिस करते हैं।

कस्टम अस्पताल पहचानकर्ता: अस्पताल अपने स्वयं के MRN प्रारूप, कर्मचारी ID, और साइट कोड का उपयोग करते हैं। ये मानक NER प्रशिक्षण डेटा में नहीं हैं। कस्टम एंटिटी समर्थन के बिना कोई टूल उन्हें नहीं ढूंढेगा।

अनुसंधान डेटासेट जोखिम

500,000 नोट्स से अनुसंधान डेटासेट बनाने वाला अस्पताल एक वास्तविक अनुपालन समस्या का सामना करता है। HIPAA डी-पहचाने गए डेटा पर "बहुत कम जोखिम" मानक के लिए कहता है। सभी संरक्षित पहचानकर्ताओं का आधा मिस करने वाला टूल उस मानक को पूरा नहीं कर सकता।

अनुसंधान संग्रह साफ डेटा नहीं हैं। नोट्स कई विभागों, समय अवधियों, और कभी-कभी भाषाओं को कवर करते हैं। बिलिंग डेटा पर काम करने वाला टूल नैरेटिव नोट्स पर विफल हो सकता है। फ्री टेक्स्ट में संवेदनशील डेटा का कोई फ़ील्ड लेबल नहीं होता।

IRB अनुमोदन और अधिक मांग जोड़ता है। संस्थानों को उपयोग की गई विधि, हटाए गए पहचानकर्ता प्रकार, और किए गए चेक दिखाने होंगे। सभी रिकॉर्ड का आधा मिस करने वाला टूल उन मांगों को पूरा नहीं कर सकता।

देखें कि anonym.legal HIPAA कार्य का समर्थन कैसे करता है हमारे अनुपालन अवलोकन और सुरक्षा प्रथाओं में।

तीन-परत समाधान

2025 के सर्वेक्षण ने एक स्पष्ट पैटर्न पाया। सबसे कम मिस रेट वाले टूल्स ने तीन डिटेक्शन परतें उपयोग की।

परत एक – रेगेक्स: संरचित पहचानकर्ता ढूंढता है। SSN, MRN, फोन नंबर, स्वास्थ्य योजना ID। निश्चित प्रारूपों पर विश्वसनीय।

परत दो – NER: ट्रांसफार्मर मॉडल उपयोग करता है। नैरेटिव टेक्स्ट में नाम, तारीखें, और संवेदनशील डेटा ढूंढता है। जहां रेगेक्स नहीं काम करता, वहां काम करता है।

परत तीन – कस्टम एंटिटी: साइट-विशिष्ट रूपों को संभालता है। मालिकाना MRN पैटर्न, कर्मचारी ID, सुविधा कोड। कोई मानक मॉडल इन्हें कवर नहीं करता।

शुद्ध ML टूल्स संक्षिप्त रूपों और गैर-अंग्रेजी टेक्स्ट पर खराब होते हैं। शुद्ध रेगेक्स टूल्स बिना फ़ील्ड लेबल वाले संवेदनशील डेटा को मिस करते हैं। न तो अकेले पर्याप्त है।

सर्वेक्षण में केवल तीन-परत डिज़ाइन ने 5% से कम मिस रेट तक पहुंचा। यही HIPAA Safe Harbor अनुपालन के लिए मानक है।

अगले चरणों के लिए अनुसंधान पर HIPAA Safe Harbor डी-पहचान पर हमारा गाइड देखें।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

LLMs 50% से अधिक क्लिनिकल PHI को मिस करते हैं

50% मिस रेट समस्या

LLMs क्या मिस करते हैं और क्यों

अनुसंधान डेटासेट जोखिम

तीन-परत समाधान

स्रोत

संबंधित लेख

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

LLMs 50% से अधिक क्लिनिकल PHI को मिस करते हैं

50% मिस रेट समस्या

LLMs क्या मिस करते हैं और क्यों

अनुसंधान डेटासेट जोखिम

तीन-परत समाधान

स्रोत

संबंधित लेख

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow