ब्लॉग पर वापस जाएँतकनीकी

फॉल्स पॉजिटिव टैक्स: क्यों आपके PII टूल की सटीकता की...

Presidio GitHub मुद्दा #1071 प्रणालीगत फॉल्स पॉजिटिव का दस्तावेजीकरण करता है। 2024 के अध्ययन में मिश्रित भाषा के उद्यम डेटा सेट में 22.7% सटीकता पाई...

April 3, 20268 मिनट पढ़ें
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

अदृश्य अनुपालन कर

PII पहचान उपकरण आमतौर पर पुनः प्राप्ति पर मूल्यांकन किए जाते हैं - उपकरण ने वास्तविक PII का कितना प्रतिशत पकड़ा? लेकिन सटीकता - उपकरण की पहचान में से कितने प्रतिशत वास्तविक PII हैं - उपकरण के उपयोग की संचालन लागत को निर्धारित करती है।

एक प्रणाली जिसमें 95% पुनः प्राप्ति और 22.7% सटीकता है, वास्तविक PII का 95% पकड़ती है लेकिन हर वास्तविक PII इकाई के लिए, यह 3.4 फॉल्स पॉजिटिव को चिह्नित करती है। एक डेटा सेट जिसमें 10,000 वास्तविक PII इकाइयां हैं, यह प्रणाली 10,000 / 0.227 ≈ 44,000 कुल पहचान उत्पन्न करती है, जिनमें से 34,000 फॉल्स पॉजिटिव हैं जिन्हें मैनुअल समीक्षा की आवश्यकता है या अधिक-रेडैक्शन का कारण बनती है।

यह "फॉल्स पॉजिटिव टैक्स" है: किसी भी संगठन पर लगाया गया संचालन ओवरहेड जो उत्पादन पैमाने पर उच्च-पुनः प्राप्ति, निम्न-सटीकता PII पहचान प्रणाली का उपयोग करने की कोशिश करता है। फॉल्स पॉजिटिव टैक्स के सीधे लागत होते हैं - मैनुअल समीक्षक का समय - और अप्रत्यक्ष लागतें: अधिक-रेडैक्टेड दस्तावेज़ प्रासंगिक जानकारी को अस्पष्ट करते हैं, कार्यप्रवाह को धीमा करते हैं, और स्वचालित प्रणाली में विश्वास को कम करते हैं।

Presidio मुद्दा #1071 क्या दस्तावेज करता है

Microsoft Presidio GitHub चर्चा #1071 (2024) एक विशिष्ट और प्रणालीगत फॉल्स पॉजिटिव पैटर्न का दस्तावेजीकरण करता है। TFN (कर फ़ाइल संख्या) और PCI पहचानकर्ताओं के साथ चेकसम मान्यता गैर-PII नंबरों के लिए 1.0 - अधिकतम विश्वास - का विश्वास स्कोर उत्पन्न करते हैं जो चेकसम एल्गोरिदम को पास करते हैं।

डिजाइन समस्या: संदर्भ शब्द की जांच (जांचना कि "कर फ़ाइल संख्या" या "TFN" जैसे शब्द पहचान की गई इकाई के पास दिखाई देते हैं) चेकसम चरण के बाद लागू होती है न कि पहले। जो नंबर चेकसम पास करते हैं उन्हें संदर्भ की परवाह किए बिना 1.0 का स्कोर मिलता है। संख्यात्मक डेटा वाले दस्तावेज़ों में - वित्तीय स्प्रेडशीट, वैज्ञानिक डेटा सेट, लॉग फ़ाइलें - यह फॉल्स पॉजिटिव की बाढ़ उत्पन्न करता है जिसे केवल स्कोर थ्रेशोल्ड द्वारा फ़िल्टर नहीं किया जा सकता।

Presidio समुदाय से एक अलग पैटर्न (GitHub मुद्दा #999): जर्मन शब्द विभाजन नाम और स्थान इकाइयों के लिए फॉल्स पॉजिटिव उत्पन्न करता है। जर्मन यौगिक जैसे "Bundesbehörde" (संघीय प्राधिकरण) या सामान्य जर्मन शर्तें गलत तरीके से विभाजित की जा सकती हैं और व्यक्तिगत नामों के रूप में पहचान की जा सकती हैं।

22.7% सटीकता समस्या

Alvaro et al. (2024) ने मिश्रित भाषा के उद्यम डेटा सेट पर Presidio डिफ़ॉल्ट सेटिंग्स का मूल्यांकन किया और 22.7% सटीकता पाई - जिसका अर्थ है कि वास्तविक उद्यम दस्तावेज़ों में, Presidio की पहचान में से 4 में से 1 से भी कम वास्तविक PII के अनुरूप है। यह आंकड़ा प्रैक्टिशनरों के क्षेत्र के अनुभव के साथ संगत है: पुनः प्राप्ति के लिए ट्यून किया गया Presidio उत्पादन में अनुपयोगी शोर उत्पन्न करता है।

2024 के एक अध्ययन में DICOM चिकित्सा इमेजिंग मेटाडेटा की जांच की गई और पाया गया कि यहां तक कि score_threshold=0.7 के साथ, 39 DICOM छवियों में से 38 में अभी भी फॉल्स पॉजिटिव इकाइयां थीं। एक दस्तावेज़ प्रकार के लिए फॉल्स पॉजिटिव को समाप्त करने वाला थ्रेशोल्ड दूसरे के लिए फॉल्स नेगेटिव उत्पन्न करता है।

सटीकता की समस्या केवल Presidio के लिए अद्वितीय नहीं है - यह विभिन्न दस्तावेज़ प्रकारों, भाषाओं और डेटा प्रारूपों में उच्च पुनः प्राप्ति वाले PII डिटेक्टर बनाने की अंतर्निहित कठिनाई को दर्शाती है। चुनौती यह है कि कोई भी निश्चित थ्रेशोल्ड एक व्यापार-बंद का प्रतिनिधित्व करता है: उच्च थ्रेशोल्ड फॉल्स पॉजिटिव को कम करता है लेकिन फॉल्स नेगेटिव को बढ़ाता है; निम्न थ्रेशोल्ड पुनः प्राप्ति को बढ़ाता है लेकिन फॉल्स पॉजिटिव को बढ़ाता है।

संदर्भ-जानकारी समाधान

थ्रेशोल्ड ट्यूनिंग का विकल्प संदर्भ-जानकारी विश्वास स्कोरिंग है। केवल इकाई पैटर्न मैच के आधार पर विश्वास सौंपने के बजाय, संदर्भ-जानकारी स्कोरिंग उस समय विश्वास को बढ़ाती है जब संदर्भ शब्द मैच के पास दिखाई देते हैं और संदर्भ के अनुपस्थित होने पर फॉल्स पॉजिटिव को दबाती है।

TFN पहचान के लिए: एक स्कोर तब बढ़ता है जब "कर फ़ाइल संख्या," "TFN," या "ऑस्ट्रेलियाई कर" एक कॉन्फ़िगर करने योग्य विंडो के भीतर दिखाई देता है। एक संख्या जो TFN चेकसम को पास करती है बिना निकटवर्ती संदर्भ शब्दों के एक कम विश्वास स्कोर प्राप्त करती है जो समीक्षा थ्रेशोल्ड के नीचे गिर जाती है।

क्रॉस-लिंगुअल फॉल्स पॉजिटिव के लिए: ऐसी इकाई प्रकार जो कुछ भाषाओं के लिए विशिष्ट हैं (जर्मन वित्तीय आईडी, फ्रेंच NIR, ऑस्ट्रेलियाई TFN) को उन दस्तावेज़ों तक सीमित किया जा सकता है जो उस भाषा के रूप में पहचान की गई हैं। TFN डिटेक्टर केवल अंग्रेजी और ऑस्ट्रेलियाई-अंग्रेजी दस्तावेज़ों पर लागू होने पर उन प्रणालीगत फॉल्स पॉजिटिव को समाप्त करता है जो तब उत्पन्न होते हैं जब वही डिटेक्टर जर्मन दस्तावेज़ों पर चलता है।

हाइब्रिड पहचान की तीसरी श्रेणी - ट्रांसफार्मर-आधारित संदर्भात्मक मॉडल - एक और परत जोड़ती है: मॉडल पूर्ण चारों ओर के संदर्भ का मूल्यांकन करता है ताकि एक वास्तविक व्यक्तिगत नाम ("जॉन स्मिथ, रोगी आईडी 12345") को एक फॉल्स पॉजिटिव (एक उत्पाद पहचानकर्ता जो नाम पैटर्न से मेल खाता है) से अलग किया जा सके।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।