ब्लॉग पर वापस जाएँतकनीकी

फॉल्स पॉजिटिव समस्या: क्यों शुद्ध ML रेडैक्शन की लागत...

एक 2024 बेंचमार्क ने पाया कि Presidio ने 4,434 नमूनों में 13,536 फॉल्स पॉजिटिव नाम पहचान उत्पन्न किए - सर्वनाम...

March 23, 20268 मिनट पढ़ें
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

उत्पादन में 22.7% सटीकता की समस्या

Microsoft Presidio का 2024 बेंचमार्क अध्ययन - कानूनी प्रौद्योगिकी, स्वास्थ्य सेवा और उद्यम डेटा सुरक्षा अनुप्रयोगों में उपयोग किया जाने वाला ओपन-सोर्स PII पहचान इंजन - ने व्यावसायिक दस्तावेज़ संदर्भों में व्यक्ति नाम पहचान के लिए 22.7% सटीकता दर पाई।

सटीकता सकारात्मक पहचान की सटीकता को मापती है: उपकरण द्वारा "व्यक्ति नाम" के रूप में चिह्नित किए गए आइटमों में से कितने प्रतिशत वास्तव में व्यक्ति नाम हैं। 22.7% पर, लगभग 100 आइटम में से 77 जो व्यक्ति नाम के रूप में चिह्नित हैं, फॉल्स पॉजिटिव हैं।

बेंचमार्क ने 4,434 दस्तावेज़ नमूनों में 13,536 फॉल्स पॉजिटिव नाम पहचान का दस्तावेजीकरण किया। फॉल्स पॉजिटिव में शामिल थे:

  • सर्वनाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("मैं" वाक्यों की शुरुआत में)
  • जहाजों के नाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("ASL Scorpio")
  • संगठन के नाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("Deloitte & Touche")
  • देशों के नाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("Argentina," "Singapore")

ये किनारे के मामले नहीं हैं। ये प्रणालीगत पैटर्न हैं जो तब उभरते हैं जब एक सामान्य उद्देश्य NLP मॉडल को मिश्रित कॉर्पस पर प्रशिक्षित किया जाता है और इसे डोमेन-विशिष्ट दस्तावेज़ प्रकारों पर लागू किया जाता है जहां उचित संज्ञाएँ ऐसे संदर्भों में प्रकट होती हैं जिनमें मॉडल को स्पष्ट करने के लिए प्रशिक्षित नहीं किया गया था।

पैमाने पर फॉल्स पॉजिटिव की लागत संरचना

कानूनी और स्वास्थ्य सेवा वातावरण में, फॉल्स पॉजिटिव मुफ्त नहीं होते। हर चिह्नित आइटम की एक स्थिति की आवश्यकता होती है: या तो झंडे की पुष्टि या अस्वीकार करने के लिए मानव समीक्षा, या स्वचालित प्रसंस्करण जो फॉल्स पॉजिटिव को बिना सुधार के छोड़ देता है।

विकल्प 1: हर चिह्नित आइटम की मानव समीक्षा। वकील या विशेषज्ञ के समय के लिए $200 से $800 प्रति घंटे की लागत पर, 22.7% सटीकता प्रणाली से फॉल्स पॉजिटिव की समीक्षा करना पैमाने पर आर्थिक रूप से असंभव है। 10,000 दस्तावेज़ उत्पादन के लिए जिसमें प्रति दस्तावेज़ 100 चिह्नित आइटम हैं और 22.7% सटीकता है, लगभग 77,300 आइटम की मानव समीक्षा की आवश्यकता है। प्रति आइटम 5 मिनट पर $300 प्रति घंटे की दर से, यह 6,442 घंटे की समीक्षा समय है - लगभग $1.9 मिलियन।

विकल्प 2: मैन्युअल समीक्षा छोड़ें और स्वचालित प्रसंस्करण स्वीकार करें। परिणाम एक उत्पादन है जहां "रेडेक्टेड" आइटमों में से 77% वास्तव में संवेदनशील नहीं थे - अधिक-रेडैक्शन देयता उत्पन्न करना (बिना आधार के रोकने योग्य सामग्री), दस्तावेज़ उपयोगिता को नष्ट करना, और संभावित रूप से दंड को ट्रिगर करना।

विकल्प 3: स्कोर थ्रेशोल्ड। Presidio स्कोर_थ्रेशोल्ड कॉन्फ़िगरेशन की अनुमति देता है ताकि केवल आत्मविश्वास थ्रेशोल्ड से ऊपर के आइटमों को चिह्नित करके फॉल्स पॉजिटिव को कम किया जा सके। DICOM चिकित्सा इमेजिंग दस्तावेज़ों का 2024 बेंचमार्क अध्ययन ने पाया कि स्कोर_थ्रेशोल्ड=0.7 के साथ - एक अपेक्षाकृत आक्रामक सटीकता फ़िल्टर - 39 DICOM छवियों में से 38 में अभी भी फॉल्स पॉजिटिव संस्थाएँ थीं। स्कोर थ्रेशोल्ड फॉल्स पॉजिटिव समस्या को कम करते हैं लेकिन इसे शुद्ध ML पहचान के लिए समाप्त नहीं करते।

क्यों शुद्ध ML डोमेन-विशिष्ट दस्तावेज़ों में विफल होता है

Presidio फॉल्स पॉजिटिव पैटर्न एक सामान्य उद्देश्य NLP मॉडल की डोमेन-विशिष्ट संदर्भों में एक मौलिक सीमा को दर्शाता है:

कानूनी दस्तावेज़ों में विशेषीकृत उचित संज्ञाएँ होती हैं - केस नाम, अधिनियम नाम, प्रदर्शनी नाम - जो व्यक्ति नामों के साथ सतही स्तर के पैटर्न साझा करती हैं। सामान्य पाठ पर प्रशिक्षित एक मॉडल यह सीखता है कि बड़े अक्षरों में लिखी गई उचित संज्ञाएँ अक्सर व्यक्ति नाम होती हैं। एक कानूनी दस्तावेज़ में सैकड़ों बड़े अक्षरों में लिखी गई उचित संज्ञाएँ होती हैं जो व्यक्ति नाम नहीं होती हैं।

स्वास्थ्य सेवा दस्तावेज़ों में दवा के नाम, उपकरणों के नाम, और प्रक्रियात्मक कोड होते हैं जो नाम संक्षेपण के समान अक्षर अनुक्रम शामिल करते हैं। क्लिनिकल पाठ में भी संक्षेपण होते हैं ("Pt." मरीज के लिए, "Dr." डॉक्टर के लिए) जो नाम पहचान के साथ अप्रत्याशित रूप से इंटरैक्ट करते हैं।

वित्तीय दस्तावेज़ों में उत्पाद नाम, संस्थाओं के नाम, और पहचानकर्ता कोड होते हैं जो व्यक्तिगत पहचानकर्ताओं के साथ पैटर्न साझा करते हैं।

डोमेन-विशिष्ट ट्यूनिंग इन पैटर्नों को संबोधित करता है, लेकिन डेटा सेट को ठीक करने में महत्वपूर्ण निवेश और दस्तावेज़ प्रकारों के विकसित होने के साथ निरंतर रखरखाव की आवश्यकता होती है।

हाइब्रिड आर्किटेक्चर समाधान

फॉल्स पॉजिटिव समस्या को संरचनात्मक रूप से हाइब्रिड पहचान के माध्यम से हल किया जा सकता है जो संरचित डेटा (जहां regex 100% सटीकता प्रदान करता है) को संदर्भ डेटा (जहां ML पैटर्न पहचान के साथ कैलिब्रेटेड आत्मविश्वास प्रदान करता है) से अलग करता है।

संरचित पहचानकर्ताओं के लिए Regex: SSNs, फोन नंबर, ईमेल पते, क्रेडिट कार्ड नंबर, राष्ट्रीय आईडी प्रारूप, बैंक खाता नंबर। ये प्रारूप निश्चित होते हैं - एक स्ट्रिंग या तो पैटर्न से मेल खाती है और चेकसम सत्यापन पास करती है या नहीं। वैध कार्यान्वयन के लिए शून्य फॉल्स पॉजिटिव।

संदर्भ संस्थाओं के लिए NLP: व्यक्ति नाम, संगठन के नाम, असंरचित पाठ में स्थान। NLP मॉडल उन संस्थाओं के लिए पुनः प्राप्ति प्रदान करते हैं जिनमें संरचनात्मक पैटर्न की कमी होती है। आत्मविश्वास स्कोरिंग और संदर्भ शब्द आवश्यकताएँ फॉल्स पॉजिटिव को कम करती हैं।

प्रत्येक संस्थान प्रकार के लिए थ्रेशोल्ड कॉन्फ़िगरेशन: व्यक्ति नामों के लिए 90% आत्मविश्वास थ्रेशोल्ड सेट करना जबकि SSNs के लिए regex-निश्चितता (प्रभावी रूप से 100%) का उपयोग करना डोमेन-विशिष्ट फॉल्स पॉजिटिव सहिष्णुता के लिए कैलिब्रेशन की अनुमति देता है। कानूनी टीमें जो अधिक-रेडैक्शन जोखिम सहन नहीं कर सकतीं, उच्च थ्रेशोल्ड सेट करती हैं; क्लिनिकल अनुसंधान टीमें जो पहचान रहित पुनः प्राप्ति को अधिकतम करना चाहती हैं, निम्न थ्रेशोल्ड सेट करती हैं।

परिणाम: Presidio डिफ़ॉल्ट से नाटकीय रूप से कम फॉल्स पॉजिटिव दरें जबकि शुद्ध पैटर्न मिलान जो प्राप्त नहीं कर सकता है, को बनाए रखते हुए। कानूनी और स्वास्थ्य सेवा संगठनों के लिए जो स्वचालित रेडैक्शन उपकरणों का मूल्यांकन कर रहे हैं, सटीकता-प्राप्ति व्यापार संतुलन प्रबंधनीय है - लेकिन केवल एक उपकरण के साथ जो इसे एक कॉन्फ़िगर करने योग्य पैरामीटर के रूप में उजागर करता है न कि एक निश्चित प्रणाली व्यवहार के रूप में।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।