Presidio की 22.7% परिशुद्धता समस्या
PII पहचान में false positives वास्तविक नुकसान करते हैं। जब आपका टूल जो "person names" के रूप में फ़्लैग करता है उसका 77.3% वास्तविक नाम नहीं है, तो आप प्राइवेसी की रक्षा नहीं कर रहे। आप डेटा बर्बाद कर रहे हैं।
2024 के एक बेंचमार्क ने व्यावसायिक दस्तावेज़ों पर Microsoft Presidio के डिफ़ॉल्ट NER मॉडल का परीक्षण किया। परीक्षण में वित्तीय रिपोर्ट, ग्राहक पत्र, उत्पाद दस्तावेज़, और सहायता टिकट शामिल थे। परिणाम: नाम पहचान के लिए 22.7% परिशुद्धता।
यह संख्या आश्चर्यजनक है। फ़्लैग की गई हर 100 वस्तुओं में से 23 वास्तविक व्यक्तिगत नाम हैं। बाकी 77 false positives हैं — उत्पाद लेबल, ब्रांड शर्तें, या शहर लेबल।
चार में से तीन पहचान गलत हैं। यह एक मामूली कैलिब्रेशन समस्या नहीं है। व्यावसायिक दस्तावेज़ कार्य के लिए यह एक टूटा हुआ टूल है।
यह क्यों होता है
Presidio डिफ़ॉल्ट रूप से spaCy के en_core_web_lg मॉडल का उपयोग करता है। यह मॉडल समाचार पाठ से सीखा। समाचार में, अधिकांश proper nouns वास्तविक लोग या स्थान होते हैं।
व्यावसायिक दस्तावेज़ अलग होते हैं।
उत्पाद लेबल जो व्यक्तिगत नामों की तरह दिखते हैं। "Apple iPhone 15 Pro शिपमेंट रिकॉर्ड" को PERSON के रूप में फ़्लैग किया जाता है। "Samsung Galaxy Tab" और "Cisco Meraki deployment" को भी ऐसे ही फ़्लैग किया जाता है।
नाम जैसे हिस्सों वाले कंपनी शब्द। "Johnson Controls results" में, "Johnson" शब्द को PERSON के रूप में फ़्लैग किया जाता है। "Goldman Sachs portfolio" उसी त्रुटि को ट्रिगर करता है।
स्थान लेबल जो person detection ट्रिगर करते हैं। "Victoria Harbour project" "Victoria" को PERSON के रूप में फ़्लैग करता है। "Santiago hub" "Santiago" को उसी तरह फ़्लैग करता है।
मॉडल में "Apple" (कंपनी) और "Apple Smith" (एक व्यक्ति) के बीच अंतर करने की संदर्भ क्षमता नहीं है। यह अंतराल अधिकांश false positives की जड़ है। समाचार पाठ ने इसे proper nouns को लोग या स्थान मानने के लिए सिखाया। व्यावसायिक पाठ उस नियम को हर बार तोड़ता है।
Downstream प्रभाव
एक डेटा फर्म ने ग्राहक सर्वेक्षण साझा करने से पहले उन्हें साफ़ करने के लिए Presidio का उपयोग किया। एक ऑडिट में चार समस्याएं मिलीं। पहली, 40% सर्वेक्षणों में उत्पाद लेबल गलत तरीके से हटाए गए थे। दूसरी, हर प्रतिक्रिया से शहर लेबल हटा दिए गए थे। तीसरी, विश्लेषण सेट से ब्रांड उल्लेखों को मिटा दिया गया था। चौथी, विशिष्ट उत्पादों के बारे में sentiment पढ़ा नहीं जा सका।
विश्लेषण टीम को सभी उत्पाद संदर्भ हटाए गए redacted पाठ मिला। सर्वेक्षण में मूल रूप से iPhone Pro और Apple charger का नाम था। वह अर्थ चला गया था।
फर्म बेहतर privacy की रक्षा नहीं कर रही थी। वह compliance प्राप्त किए बिना डेटा तोड़ रही थी। ऑडिट के बाद Presidio को बदल दिया गया।
पहचान गुणवत्ता आपकी नियामक स्थिति को कैसे प्रभावित करती है, इसके लिए हमारा compliance overview देखें।
एक बेहतर दृष्टिकोण: Hybrid Detection
समस्या Presidio के लिए अद्वितीय नहीं है। संदर्भ के बिना Token-level NER में हमेशा यह समस्या होगी। समाधान context-aware detection है।
Transformers क्यों मदद करते हैं: XLM-RoBERTa जैसा मॉडल पूरा वाक्य पढ़ता है। "Apple ने अपनी कमाई की घोषणा की" → Apple एक फर्म है। "Apple Smith टीम में शामिल हुई" → Apple एक पहला नाम है। संदर्भ बताता है कि कौन सा कौन है।
यह recall उच्च रखते हुए precision में सुधार करता है। नीचे तुलना देखें।
| दृष्टिकोण | Precision | Recall |
|---|---|---|
| Presidio default NER | 22.7% | ~85% |
| Regex-only | ~95% | ~40% |
| Hybrid (Regex + NLP + Transformer) | ~85% | ~80% |
Hybrid दृष्टिकोण 85% precision तक पहुंचता है। इसका अर्थ है 15% false positive दर। 77.3% से बहुत बेहतर। व्यावसायिक दस्तावेज़ों के लिए, यह अंतर महत्वपूर्ण है।
Hybrid stack के चार चरण हैं:
-
Regex layer: संरचित ID खोजता है — ईमेल, फ़ोन नंबर, SSN, IBAN। प्रारूप निश्चित हैं, इसलिए false positives दुर्लभ हैं। यह पहले चलता है।
-
NLP layer (spaCy): लोगों, फर्मों, और स्थानों के लिए मानक NER। उच्च recall, कम precision।
-
Transformer layer (XLM-RoBERTa): पूर्ण वाक्य संदर्भ का उपयोग करके प्रत्येक NLP परिणाम को फिर से स्कोर करता है। उत्पाद संदर्भ में "Apple" अपना entity स्कोर खो देता है। शिकायत पाठ में "John" इसे प्राप्त करता है।
-
Confidence threshold: केवल एक निर्धारित स्कोर से ऊपर के hits आउटपुट को पास होते हैं। analytics use cases के लिए threshold बढ़ाएं। HIPAA de-identification के लिए इसे कम करें।
स्विच करने के बाद परिणाम
analytics फर्म ने hybrid detection पर स्विच किया। लाभ स्पष्ट थे। उत्पाद लेबल false positives 40% से 3% तक गिरे। शहर लेबल false positives लगभग शून्य हो गए। वास्तविक पहचान recall ~82% पर रहा, 85% से थोड़ा कम, लेकिन precision में काफी सुधार हुआ।
सर्वेक्षण फिर से उपयोग योग्य हो गए। "iPhone," "Apple," "Samsung," और "Chicago" पाठ में बने रहे। शिकायत संदर्भों में ग्राहक नाम सही तरीके से हटाए गए।
Hybrid detection अधिक compute लेता है। बड़े कार्यों के लिए, run times थोड़ा अधिक हैं। अधिकांश व्यावसायिक use cases के लिए, accuracy लाभ इसके लायक है। फर्म विश्लेषण फिर से चला सकती थी। यही सर्वेक्षण डेटा का पूरा बिंदु था।
security overview में हमारे detection दृष्टिकोण के बारे में पढ़ें।
उच्च False Positive दरें कब स्वीकार्य हैं
कुछ मामले precision पर recall को प्राथमिकता देते हैं।
HIPAA Safe Harbor: एक true positive छूटना उल्लंघन है। यदि वास्तविक PHI कभी नहीं छूटती तो 10% false positive दर ठीक है। ओवर-रिमूवल अंडर-रिमूवल से सुरक्षित है।
कानूनी समीक्षा: एक विशेषाधिकार प्राप्त संपर्क छूटना विशेषाधिकार माफ कर सकता है। False positives को समीक्षा की आवश्यकता है लेकिन दायित्व नहीं बनाते।
व्यावसायिक analytics: ओवर-रिमूवल compliance लाभ के बिना डेटा तोड़ता है। यहाँ precision अधिक मायने रखती है। उच्च confidence threshold के साथ hybrid दृष्टिकोण का उपयोग करें। यह ब्रांड लेबल और शहर शब्द आउटपुट में रखता है। केवल वास्तविक व्यक्ति नाम हटाए जाते हैं।
सही संतुलन आपके use case पर निर्भर करता है। जो टूल आपको threshold सेट करने देते हैं वे नियंत्रण देते हैं। कोई एकल डिफ़ॉल्ट हर संदर्भ के लिए काम नहीं करता।
thresholds और detection modes के बारे में सामान्य प्रश्नों के लिए हमारा FAQ देखें।
निष्कर्ष
22.7% precision दर का अर्थ है कि 4 में से 3 पहचान गलत हैं। व्यावसायिक दस्तावेज़ों के लिए, यह विश्लेषण के लिए आउटपुट को अनुपयोगी बना देता है। यह compliance के बारे में झूठी आत्मविश्वास भी देता है।
Hybrid detection इसे ठीक करता है। यह regex, NLP, और transformer स्कोरिंग को जोड़ता है। अनामीकरण के बाद डेटा उपयोगी रहता है। वास्तविक व्यक्ति नाम हटाए जाते हैं। ब्रांड लेबल, शहर शब्द, और उत्पाद पहचानकर्ता बने रहते हैं।
यदि आपने false positive समस्याओं के कारण Presidio छोड़ा, तो यह आगे का रास्ता है। उसी मॉडल का नया कॉन्फ़िग नहीं। एक अलग architecture जो व्यावसायिक दस्तावेज़ संदर्भों के लिए बनी है।
स्रोत
Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.
Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.