PII डिटेक्शन टूल्स पर झूठे सकारात्मक का कर

2026 के लिए अद्यतन

अधिकांश PII टूल्स रिकॉल पर आंके जाते हैं। रिकॉल मापता है कि टूल को वास्तविक PII का कितना हिस्सा मिलता है। लेकिन सटीकता उतनी ही मायने रखती है। सटीकता मापती है कि टूल के अलर्ट का कितना हिस्सा वास्तविक PII है।

कम सटीकता महंगी है। 95% रिकॉल और 22.7% सटीकता वाला सिस्टम अधिकांश PII पकड़ता है। फिर भी यह हर वास्तविक PII एंटिटी के लिए 3.4 गलत अलर्ट भी उठाता है। 10,000 वास्तविक PII एंटिटी वाले डेटासेट में, वह सिस्टम लगभग 44,000 अलर्ट फायर करता है। उनमें से लगभग 34,000 गलत हैं। प्रत्येक की समीक्षा करने या अत्यधिक-संपादन करने में समय लगता है।

यही झूठे सकारात्मक का कर है। यह वह ओवरहेड है जो कोई भी टीम स्केल पर उच्च-रिकॉल, कम-सटीकता PII सिस्टम चलाते समय भुगतान करती है। प्रत्यक्ष लागत समीक्षक का समय है। अप्रत्यक्ष लागत बदतर है: अत्यधिक-संपादित दस्तावेज़ उपयोगी डेटा छुपाते हैं, काम धीमा करते हैं, और टूल में विश्वास को नष्ट करते हैं।

Presidio Issue #1071 क्या दिखाता है

Microsoft Presidio GitHub discussion #1071 (2024) एक विशिष्ट पैटर्न रिकॉर्ड करता है। TFN (Tax File Number) और PCI रेकग्नाइज़र चेकसम सत्यापन का उपयोग करते हैं। चेकसम पास करने वाले नंबरों को 1.0 का स्कोर मिलता है – अधिकतम विश्वास। कोई PII संदर्भ आवश्यक नहीं है।

मूल कारण: संदर्भ शब्द जांच चेकसम चरण के बाद चलती है, पहले नहीं। चेकसम पास करने वाला नंबर आसपास के टेक्स्ट की परवाह किए बिना शीर्ष स्कोर पाता है। वित्तीय स्प्रेडशीट, वैज्ञानिक डेटासेट, या लॉग फाइल में, यह आउटपुट को गलत अलर्ट से भर देता है। स्कोर थ्रेशोल्ड फ़िल्टरिंग इसे ठीक नहीं कर सकती। स्कोर पहले से अधिकतम हैं।

Presidio issue #999 में दूसरा पैटर्न दिखता है। जर्मन शब्द विभाजन संयुक्त संज्ञाओं के लिए टूट जाता है। Bundesbehörde (संघीय प्राधिकरण) जैसे शब्द गलत तरीके से विभाजित होकर व्यक्तिगत नाम के रूप में टैग हो सकते हैं। यह किसी भी जर्मन-भाषा दस्तावेज़ में शोर जोड़ता है।

22.7% सटीकता समस्या

Alvaro et al. (2024) ने मिश्रित-भाषा एंटरप्राइज़ डेटासेट पर Presidio का परीक्षण किया। उन्होंने 22.7% सटीकता पाई। वास्तविक दस्तावेज़ों में, चार में से एक से भी कम Presidio अलर्ट वास्तविक PII एंटिटी है। यह व्यवसायियों की रिपोर्ट से मेल खाता है। केवल रिकॉल के लिए ट्यून किया गया टूल उत्पादन उपयोग के लिए बहुत अधिक शोर पैदा करता है।

2024 के DICOM अध्ययन से पता चला कि score_threshold को 0.7 तक बढ़ाने पर भी 39 में से 38 मेडिकल छवियों में गलत अलर्ट रहे। एक दस्तावेज़ प्रकार में शोर साफ करने वाला थ्रेशोल्ड दूसरे में मिस डिटेक्शन पैदा करता है।

यह केवल Presidio की समस्या नहीं है। कोई भी निश्चित थ्रेशोल्ड एक ट्रेड-ऑफ मजबूर करता है। उच्च थ्रेशोल्ड शोर काटता है लेकिन मिस बढ़ाता है। कम थ्रेशोल्ड रिकॉल बढ़ाता है लेकिन अलर्ट की संख्या बढ़ाता है।

संदर्भ-जागरूक स्कोरिंग

समाधान संदर्भ-जागरूक विश्वास स्कोरिंग है। केवल पैटर्न मिलान के आधार पर स्कोर करने के बजाय, सिस्टम जब मिलान के पास संदर्भ शब्द दिखाई देते हैं तो विश्वास बढ़ाता है। यह संदर्भ अनुपस्थित होने पर स्कोर भी कम करता है।

TFN डिटेक्शन के लिए: नंबर के पास "tax file number," "TFN," या "Australian tax" जैसे शब्द उसके स्कोर को बढ़ाते हैं। चेकसम पास करने वाला लेकिन पास के संदर्भ शब्द न होने वाला नंबर समीक्षा थ्रेशोल्ड से नीचे स्कोर करता है। झूठा अलर्ट दबा दिया जाता है।

क्रॉस-लैंग्वेज शोर के लिए: विशिष्ट देशों से जुड़े एंटिटी प्रकारों को मिलान भाषा के दस्तावेज़ों तक सीमित किया जा सकता है। अंग्रेजी और ऑस्ट्रेलियाई-अंग्रेजी टेक्स्ट तक सीमित TFN डिटेक्टर शोर हटाता है। स्कोपिंग के बिना जर्मन सामग्री पर इसे चलाना समस्या का स्रोत है।

हाइब्रिड सिस्टम में तीसरी परत एक ट्रांसफार्मर मॉडल है। यह प्रत्येक उम्मीदवार के आसपास पूरी संदर्भ विंडो पढ़ता है। यह "John Smith, Patient ID 12345" और उस उत्पाद कोड को अलग करता है जो एक नाम पैटर्न से मेल खाता है। संदर्भ उस अस्पष्टता को हल करता है जो रेगेक्स और चेकसम नहीं कर सकते।

देखें कि तीन-स्तरीय डिटेक्शन इंजन स्केल पर सटीकता कैसे संभालता है। बहुभाषी PII डिटेक्शन गाइड बताता है कि क्रॉस-लैंग्वेज शोर GDPR अनुपालन को कैसे प्रभावित करता है।

व्यावहारिक कदम

कोई भी PII टूल तैनात करने से पहले, उसकी सटीकता मापें – न केवल रिकॉल।

ज्ञात PII और ज्ञात गैर-PII के साथ दस्तावेज़ सेट पर टूल चलाएं। दोनों समूहों में अलर्ट गिनें। true_positives / (true_positives + false_positives) की गणना करें। यह संख्या रोलआउट के लिए प्रतिबद्ध होने से पहले समीक्षा का बोझ प्रकट करती है।

Presidio का उपयोग करने वाली टीमों के लिए, स्कोर वितरण विश्लेषण एक तेज़ रास्ता है। उनके विश्वास स्कोर के साथ डिटेक्शन का एक नमूना निर्यात करें। 0.6, 0.7, और 0.8 से नीचे कितने स्कोर करते हैं, यह गिनें। साफ टेक्स्ट में उच्च-स्कोर अलर्ट का बड़ा हिस्सा थ्रेशोल्ड समस्या नहीं, बल्कि संदर्भ अंतराल का संकेत है। सुरक्षा अनुपालन अवलोकन बताता है कि DPIA में इसे कैसे दस्तावेज़ करें।

स्रोत

Microsoft Presidio GitHub Discussion #1071: व्यवस्थित झूठे सकारात्मक
Microsoft Presidio GitHub Issue #999: जर्मन भाषा झूठे सकारात्मक पैटर्न
Alvaro et al. (2024): मिश्रित-भाषा एंटरप्राइज़ डेटासेट पर Presidio सटीकता।
DICOM स्कोर थ्रेशोल्ड विश्लेषण – Microsoft Presidio समुदाय।

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

PII टूल्स पर झूठे सकारात्मक का कर

PII डिटेक्शन टूल्स पर झूठे सकारात्मक का कर

Presidio Issue #1071 क्या दिखाता है

22.7% सटीकता समस्या

संदर्भ-जागरूक स्कोरिंग

व्यावहारिक कदम

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

PII टूल्स पर झूठे सकारात्मक का कर

PII डिटेक्शन टूल्स पर झूठे सकारात्मक का कर

Presidio Issue #1071 क्या दिखाता है

22.7% सटीकता समस्या

संदर्भ-जागरूक स्कोरिंग

व्यावहारिक कदम

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow