अदृश्य अनुपालन कर
PII पहचान उपकरण आमतौर पर पुनः प्राप्ति पर मूल्यांकन किए जाते हैं - उपकरण ने वास्तविक PII का कितना प्रतिशत पकड़ा? लेकिन सटीकता - उपकरण की पहचान में से कितने प्रतिशत वास्तविक PII हैं - उपकरण के उपयोग की संचालन लागत को निर्धारित करती है।
एक प्रणाली जिसमें 95% पुनः प्राप्ति और 22.7% सटीकता है, वास्तविक PII का 95% पकड़ती है लेकिन हर वास्तविक PII इकाई के लिए, यह 3.4 फॉल्स पॉजिटिव को चिह्नित करती है। एक डेटा सेट जिसमें 10,000 वास्तविक PII इकाइयां हैं, यह प्रणाली 10,000 / 0.227 ≈ 44,000 कुल पहचान उत्पन्न करती है, जिनमें से 34,000 फॉल्स पॉजिटिव हैं जिन्हें मैनुअल समीक्षा की आवश्यकता है या अधिक-रेडैक्शन का कारण बनती है।
यह "फॉल्स पॉजिटिव टैक्स" है: किसी भी संगठन पर लगाया गया संचालन ओवरहेड जो उत्पादन पैमाने पर उच्च-पुनः प्राप्ति, निम्न-सटीकता PII पहचान प्रणाली का उपयोग करने की कोशिश करता है। फॉल्स पॉजिटिव टैक्स के सीधे लागत होते हैं - मैनुअल समीक्षक का समय - और अप्रत्यक्ष लागतें: अधिक-रेडैक्टेड दस्तावेज़ प्रासंगिक जानकारी को अस्पष्ट करते हैं, कार्यप्रवाह को धीमा करते हैं, और स्वचालित प्रणाली में विश्वास को कम करते हैं।
Presidio मुद्दा #1071 क्या दस्तावेज करता है
Microsoft Presidio GitHub चर्चा #1071 (2024) एक विशिष्ट और प्रणालीगत फॉल्स पॉजिटिव पैटर्न का दस्तावेजीकरण करता है। TFN (कर फ़ाइल संख्या) और PCI पहचानकर्ताओं के साथ चेकसम मान्यता गैर-PII नंबरों के लिए 1.0 - अधिकतम विश्वास - का विश्वास स्कोर उत्पन्न करते हैं जो चेकसम एल्गोरिदम को पास करते हैं।
डिजाइन समस्या: संदर्भ शब्द की जांच (जांचना कि "कर फ़ाइल संख्या" या "TFN" जैसे शब्द पहचान की गई इकाई के पास दिखाई देते हैं) चेकसम चरण के बाद लागू होती है न कि पहले। जो नंबर चेकसम पास करते हैं उन्हें संदर्भ की परवाह किए बिना 1.0 का स्कोर मिलता है। संख्यात्मक डेटा वाले दस्तावेज़ों में - वित्तीय स्प्रेडशीट, वैज्ञानिक डेटा सेट, लॉग फ़ाइलें - यह फॉल्स पॉजिटिव की बाढ़ उत्पन्न करता है जिसे केवल स्कोर थ्रेशोल्ड द्वारा फ़िल्टर नहीं किया जा सकता।
Presidio समुदाय से एक अलग पैटर्न (GitHub मुद्दा #999): जर्मन शब्द विभाजन नाम और स्थान इकाइयों के लिए फॉल्स पॉजिटिव उत्पन्न करता है। जर्मन यौगिक जैसे "Bundesbehörde" (संघीय प्राधिकरण) या सामान्य जर्मन शर्तें गलत तरीके से विभाजित की जा सकती हैं और व्यक्तिगत नामों के रूप में पहचान की जा सकती हैं।
22.7% सटीकता समस्या
Alvaro et al. (2024) ने मिश्रित भाषा के उद्यम डेटा सेट पर Presidio डिफ़ॉल्ट सेटिंग्स का मूल्यांकन किया और 22.7% सटीकता पाई - जिसका अर्थ है कि वास्तविक उद्यम दस्तावेज़ों में, Presidio की पहचान में से 4 में से 1 से भी कम वास्तविक PII के अनुरूप है। यह आंकड़ा प्रैक्टिशनरों के क्षेत्र के अनुभव के साथ संगत है: पुनः प्राप्ति के लिए ट्यून किया गया Presidio उत्पादन में अनुपयोगी शोर उत्पन्न करता है।
2024 के एक अध्ययन में DICOM चिकित्सा इमेजिंग मेटाडेटा की जांच की गई और पाया गया कि यहां तक कि score_threshold=0.7 के साथ, 39 DICOM छवियों में से 38 में अभी भी फॉल्स पॉजिटिव इकाइयां थीं। एक दस्तावेज़ प्रकार के लिए फॉल्स पॉजिटिव को समाप्त करने वाला थ्रेशोल्ड दूसरे के लिए फॉल्स नेगेटिव उत्पन्न करता है।
सटीकता की समस्या केवल Presidio के लिए अद्वितीय नहीं है - यह विभिन्न दस्तावेज़ प्रकारों, भाषाओं और डेटा प्रारूपों में उच्च पुनः प्राप्ति वाले PII डिटेक्टर बनाने की अंतर्निहित कठिनाई को दर्शाती है। चुनौती यह है कि कोई भी निश्चित थ्रेशोल्ड एक व्यापार-बंद का प्रतिनिधित्व करता है: उच्च थ्रेशोल्ड फॉल्स पॉजिटिव को कम करता है लेकिन फॉल्स नेगेटिव को बढ़ाता है; निम्न थ्रेशोल्ड पुनः प्राप्ति को बढ़ाता है लेकिन फॉल्स पॉजिटिव को बढ़ाता है।
संदर्भ-जानकारी समाधान
थ्रेशोल्ड ट्यूनिंग का विकल्प संदर्भ-जानकारी विश्वास स्कोरिंग है। केवल इकाई पैटर्न मैच के आधार पर विश्वास सौंपने के बजाय, संदर्भ-जानकारी स्कोरिंग उस समय विश्वास को बढ़ाती है जब संदर्भ शब्द मैच के पास दिखाई देते हैं और संदर्भ के अनुपस्थित होने पर फॉल्स पॉजिटिव को दबाती है।
TFN पहचान के लिए: एक स्कोर तब बढ़ता है जब "कर फ़ाइल संख्या," "TFN," या "ऑस्ट्रेलियाई कर" एक कॉन्फ़िगर करने योग्य विंडो के भीतर दिखाई देता है। एक संख्या जो TFN चेकसम को पास करती है बिना निकटवर्ती संदर्भ शब्दों के एक कम विश्वास स्कोर प्राप्त करती है जो समीक्षा थ्रेशोल्ड के नीचे गिर जाती है।
क्रॉस-लिंगुअल फॉल्स पॉजिटिव के लिए: ऐसी इकाई प्रकार जो कुछ भाषाओं के लिए विशिष्ट हैं (जर्मन वित्तीय आईडी, फ्रेंच NIR, ऑस्ट्रेलियाई TFN) को उन दस्तावेज़ों तक सीमित किया जा सकता है जो उस भाषा के रूप में पहचान की गई हैं। TFN डिटेक्टर केवल अंग्रेजी और ऑस्ट्रेलियाई-अंग्रेजी दस्तावेज़ों पर लागू होने पर उन प्रणालीगत फॉल्स पॉजिटिव को समाप्त करता है जो तब उत्पन्न होते हैं जब वही डिटेक्टर जर्मन दस्तावेज़ों पर चलता है।
हाइब्रिड पहचान की तीसरी श्रेणी - ट्रांसफार्मर-आधारित संदर्भात्मक मॉडल - एक और परत जोड़ती है: मॉडल पूर्ण चारों ओर के संदर्भ का मूल्यांकन करता है ताकि एक वास्तविक व्यक्तिगत नाम ("जॉन स्मिथ, रोगी आईडी 12345") को एक फॉल्स पॉजिटिव (एक उत्पाद पहचानकर्ता जो नाम पैटर्न से मेल खाता है) से अलग किया जा सके।
स्रोत: