PII डिटेक्शन टूल्स पर झूठे सकारात्मक का कर
2026 के लिए अद्यतन
अधिकांश PII टूल्स रिकॉल पर आंके जाते हैं। रिकॉल मापता है कि टूल को वास्तविक PII का कितना हिस्सा मिलता है। लेकिन सटीकता उतनी ही मायने रखती है। सटीकता मापती है कि टूल के अलर्ट का कितना हिस्सा वास्तविक PII है।
कम सटीकता महंगी है। 95% रिकॉल और 22.7% सटीकता वाला सिस्टम अधिकांश PII पकड़ता है। फिर भी यह हर वास्तविक PII एंटिटी के लिए 3.4 गलत अलर्ट भी उठाता है। 10,000 वास्तविक PII एंटिटी वाले डेटासेट में, वह सिस्टम लगभग 44,000 अलर्ट फायर करता है। उनमें से लगभग 34,000 गलत हैं। प्रत्येक की समीक्षा करने या अत्यधिक-संपादन करने में समय लगता है।
यही झूठे सकारात्मक का कर है। यह वह ओवरहेड है जो कोई भी टीम स्केल पर उच्च-रिकॉल, कम-सटीकता PII सिस्टम चलाते समय भुगतान करती है। प्रत्यक्ष लागत समीक्षक का समय है। अप्रत्यक्ष लागत बदतर है: अत्यधिक-संपादित दस्तावेज़ उपयोगी डेटा छुपाते हैं, काम धीमा करते हैं, और टूल में विश्वास को नष्ट करते हैं।
Presidio Issue #1071 क्या दिखाता है
Microsoft Presidio GitHub discussion #1071 (2024) एक विशिष्ट पैटर्न रिकॉर्ड करता है। TFN (Tax File Number) और PCI रेकग्नाइज़र चेकसम सत्यापन का उपयोग करते हैं। चेकसम पास करने वाले नंबरों को 1.0 का स्कोर मिलता है – अधिकतम विश्वास। कोई PII संदर्भ आवश्यक नहीं है।
मूल कारण: संदर्भ शब्द जांच चेकसम चरण के बाद चलती है, पहले नहीं। चेकसम पास करने वाला नंबर आसपास के टेक्स्ट की परवाह किए बिना शीर्ष स्कोर पाता है। वित्तीय स्प्रेडशीट, वैज्ञानिक डेटासेट, या लॉग फाइल में, यह आउटपुट को गलत अलर्ट से भर देता है। स्कोर थ्रेशोल्ड फ़िल्टरिंग इसे ठीक नहीं कर सकती। स्कोर पहले से अधिकतम हैं।
Presidio issue #999 में दूसरा पैटर्न दिखता है। जर्मन शब्द विभाजन संयुक्त संज्ञाओं के लिए टूट जाता है। Bundesbehörde (संघीय प्राधिकरण) जैसे शब्द गलत तरीके से विभाजित होकर व्यक्तिगत नाम के रूप में टैग हो सकते हैं। यह किसी भी जर्मन-भाषा दस्तावेज़ में शोर जोड़ता है।
22.7% सटीकता समस्या
Alvaro et al. (2024) ने मिश्रित-भाषा एंटरप्राइज़ डेटासेट पर Presidio का परीक्षण किया। उन्होंने 22.7% सटीकता पाई। वास्तविक दस्तावेज़ों में, चार में से एक से भी कम Presidio अलर्ट वास्तविक PII एंटिटी है। यह व्यवसायियों की रिपोर्ट से मेल खाता है। केवल रिकॉल के लिए ट्यून किया गया टूल उत्पादन उपयोग के लिए बहुत अधिक शोर पैदा करता है।
2024 के DICOM अध्ययन से पता चला कि score_threshold को 0.7 तक बढ़ाने पर भी 39 में से 38 मेडिकल छवियों में गलत अलर्ट रहे। एक दस्तावेज़ प्रकार में शोर साफ करने वाला थ्रेशोल्ड दूसरे में मिस डिटेक्शन पैदा करता है।
यह केवल Presidio की समस्या नहीं है। कोई भी निश्चित थ्रेशोल्ड एक ट्रेड-ऑफ मजबूर करता है। उच्च थ्रेशोल्ड शोर काटता है लेकिन मिस बढ़ाता है। कम थ्रेशोल्ड रिकॉल बढ़ाता है लेकिन अलर्ट की संख्या बढ़ाता है।
संदर्भ-जागरूक स्कोरिंग
समाधान संदर्भ-जागरूक विश्वास स्कोरिंग है। केवल पैटर्न मिलान के आधार पर स्कोर करने के बजाय, सिस्टम जब मिलान के पास संदर्भ शब्द दिखाई देते हैं तो विश्वास बढ़ाता है। यह संदर्भ अनुपस्थित होने पर स्कोर भी कम करता है।
TFN डिटेक्शन के लिए: नंबर के पास "tax file number," "TFN," या "Australian tax" जैसे शब्द उसके स्कोर को बढ़ाते हैं। चेकसम पास करने वाला लेकिन पास के संदर्भ शब्द न होने वाला नंबर समीक्षा थ्रेशोल्ड से नीचे स्कोर करता है। झूठा अलर्ट दबा दिया जाता है।
क्रॉस-लैंग्वेज शोर के लिए: विशिष्ट देशों से जुड़े एंटिटी प्रकारों को मिलान भाषा के दस्तावेज़ों तक सीमित किया जा सकता है। अंग्रेजी और ऑस्ट्रेलियाई-अंग्रेजी टेक्स्ट तक सीमित TFN डिटेक्टर शोर हटाता है। स्कोपिंग के बिना जर्मन सामग्री पर इसे चलाना समस्या का स्रोत है।
हाइब्रिड सिस्टम में तीसरी परत एक ट्रांसफार्मर मॉडल है। यह प्रत्येक उम्मीदवार के आसपास पूरी संदर्भ विंडो पढ़ता है। यह "John Smith, Patient ID 12345" और उस उत्पाद कोड को अलग करता है जो एक नाम पैटर्न से मेल खाता है। संदर्भ उस अस्पष्टता को हल करता है जो रेगेक्स और चेकसम नहीं कर सकते।
देखें कि तीन-स्तरीय डिटेक्शन इंजन स्केल पर सटीकता कैसे संभालता है। बहुभाषी PII डिटेक्शन गाइड बताता है कि क्रॉस-लैंग्वेज शोर GDPR अनुपालन को कैसे प्रभावित करता है।
व्यावहारिक कदम
कोई भी PII टूल तैनात करने से पहले, उसकी सटीकता मापें – न केवल रिकॉल।
ज्ञात PII और ज्ञात गैर-PII के साथ दस्तावेज़ सेट पर टूल चलाएं। दोनों समूहों में अलर्ट गिनें। true_positives / (true_positives + false_positives) की गणना करें। यह संख्या रोलआउट के लिए प्रतिबद्ध होने से पहले समीक्षा का बोझ प्रकट करती है।
Presidio का उपयोग करने वाली टीमों के लिए, स्कोर वितरण विश्लेषण एक तेज़ रास्ता है। उनके विश्वास स्कोर के साथ डिटेक्शन का एक नमूना निर्यात करें। 0.6, 0.7, और 0.8 से नीचे कितने स्कोर करते हैं, यह गिनें। साफ टेक्स्ट में उच्च-स्कोर अलर्ट का बड़ा हिस्सा थ्रेशोल्ड समस्या नहीं, बल्कि संदर्भ अंतराल का संकेत है। सुरक्षा अनुपालन अवलोकन बताता है कि DPIA में इसे कैसे दस्तावेज़ करें।
स्रोत
- Microsoft Presidio GitHub Discussion #1071: व्यवस्थित झूठे सकारात्मक
- Microsoft Presidio GitHub Issue #999: जर्मन भाषा झूठे सकारात्मक पैटर्न
- Alvaro et al. (2024): मिश्रित-भाषा एंटरप्राइज़ डेटासेट पर Presidio सटीकता।
- DICOM स्कोर थ्रेशोल्ड विश्लेषण – Microsoft Presidio समुदाय।