उत्पादन में 22.7% सटीकता की समस्या
Microsoft Presidio का 2024 बेंचमार्क अध्ययन - कानूनी प्रौद्योगिकी, स्वास्थ्य सेवा और उद्यम डेटा सुरक्षा अनुप्रयोगों में उपयोग किया जाने वाला ओपन-सोर्स PII पहचान इंजन - ने व्यावसायिक दस्तावेज़ संदर्भों में व्यक्ति नाम पहचान के लिए 22.7% सटीकता दर पाई।
सटीकता सकारात्मक पहचान की सटीकता को मापती है: उपकरण द्वारा "व्यक्ति नाम" के रूप में चिह्नित किए गए आइटमों में से कितने प्रतिशत वास्तव में व्यक्ति नाम हैं। 22.7% पर, लगभग 100 आइटम में से 77 जो व्यक्ति नाम के रूप में चिह्नित हैं, फॉल्स पॉजिटिव हैं।
बेंचमार्क ने 4,434 दस्तावेज़ नमूनों में 13,536 फॉल्स पॉजिटिव नाम पहचान का दस्तावेजीकरण किया। फॉल्स पॉजिटिव में शामिल थे:
- सर्वनाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("मैं" वाक्यों की शुरुआत में)
- जहाजों के नाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("ASL Scorpio")
- संगठन के नाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("Deloitte & Touche")
- देशों के नाम जो व्यक्ति नाम के रूप में चिह्नित किए गए ("Argentina," "Singapore")
ये किनारे के मामले नहीं हैं। ये प्रणालीगत पैटर्न हैं जो तब उभरते हैं जब एक सामान्य उद्देश्य NLP मॉडल को मिश्रित कॉर्पस पर प्रशिक्षित किया जाता है और इसे डोमेन-विशिष्ट दस्तावेज़ प्रकारों पर लागू किया जाता है जहां उचित संज्ञाएँ ऐसे संदर्भों में प्रकट होती हैं जिनमें मॉडल को स्पष्ट करने के लिए प्रशिक्षित नहीं किया गया था।
पैमाने पर फॉल्स पॉजिटिव की लागत संरचना
कानूनी और स्वास्थ्य सेवा वातावरण में, फॉल्स पॉजिटिव मुफ्त नहीं होते। हर चिह्नित आइटम की एक स्थिति की आवश्यकता होती है: या तो झंडे की पुष्टि या अस्वीकार करने के लिए मानव समीक्षा, या स्वचालित प्रसंस्करण जो फॉल्स पॉजिटिव को बिना सुधार के छोड़ देता है।
विकल्प 1: हर चिह्नित आइटम की मानव समीक्षा। वकील या विशेषज्ञ के समय के लिए $200 से $800 प्रति घंटे की लागत पर, 22.7% सटीकता प्रणाली से फॉल्स पॉजिटिव की समीक्षा करना पैमाने पर आर्थिक रूप से असंभव है। 10,000 दस्तावेज़ उत्पादन के लिए जिसमें प्रति दस्तावेज़ 100 चिह्नित आइटम हैं और 22.7% सटीकता है, लगभग 77,300 आइटम की मानव समीक्षा की आवश्यकता है। प्रति आइटम 5 मिनट पर $300 प्रति घंटे की दर से, यह 6,442 घंटे की समीक्षा समय है - लगभग $1.9 मिलियन।
विकल्प 2: मैन्युअल समीक्षा छोड़ें और स्वचालित प्रसंस्करण स्वीकार करें। परिणाम एक उत्पादन है जहां "रेडेक्टेड" आइटमों में से 77% वास्तव में संवेदनशील नहीं थे - अधिक-रेडैक्शन देयता उत्पन्न करना (बिना आधार के रोकने योग्य सामग्री), दस्तावेज़ उपयोगिता को नष्ट करना, और संभावित रूप से दंड को ट्रिगर करना।
विकल्प 3: स्कोर थ्रेशोल्ड। Presidio स्कोर_थ्रेशोल्ड कॉन्फ़िगरेशन की अनुमति देता है ताकि केवल आत्मविश्वास थ्रेशोल्ड से ऊपर के आइटमों को चिह्नित करके फॉल्स पॉजिटिव को कम किया जा सके। DICOM चिकित्सा इमेजिंग दस्तावेज़ों का 2024 बेंचमार्क अध्ययन ने पाया कि स्कोर_थ्रेशोल्ड=0.7 के साथ - एक अपेक्षाकृत आक्रामक सटीकता फ़िल्टर - 39 DICOM छवियों में से 38 में अभी भी फॉल्स पॉजिटिव संस्थाएँ थीं। स्कोर थ्रेशोल्ड फॉल्स पॉजिटिव समस्या को कम करते हैं लेकिन इसे शुद्ध ML पहचान के लिए समाप्त नहीं करते।
क्यों शुद्ध ML डोमेन-विशिष्ट दस्तावेज़ों में विफल होता है
Presidio फॉल्स पॉजिटिव पैटर्न एक सामान्य उद्देश्य NLP मॉडल की डोमेन-विशिष्ट संदर्भों में एक मौलिक सीमा को दर्शाता है:
कानूनी दस्तावेज़ों में विशेषीकृत उचित संज्ञाएँ होती हैं - केस नाम, अधिनियम नाम, प्रदर्शनी नाम - जो व्यक्ति नामों के साथ सतही स्तर के पैटर्न साझा करती हैं। सामान्य पाठ पर प्रशिक्षित एक मॉडल यह सीखता है कि बड़े अक्षरों में लिखी गई उचित संज्ञाएँ अक्सर व्यक्ति नाम होती हैं। एक कानूनी दस्तावेज़ में सैकड़ों बड़े अक्षरों में लिखी गई उचित संज्ञाएँ होती हैं जो व्यक्ति नाम नहीं होती हैं।
स्वास्थ्य सेवा दस्तावेज़ों में दवा के नाम, उपकरणों के नाम, और प्रक्रियात्मक कोड होते हैं जो नाम संक्षेपण के समान अक्षर अनुक्रम शामिल करते हैं। क्लिनिकल पाठ में भी संक्षेपण होते हैं ("Pt." मरीज के लिए, "Dr." डॉक्टर के लिए) जो नाम पहचान के साथ अप्रत्याशित रूप से इंटरैक्ट करते हैं।
वित्तीय दस्तावेज़ों में उत्पाद नाम, संस्थाओं के नाम, और पहचानकर्ता कोड होते हैं जो व्यक्तिगत पहचानकर्ताओं के साथ पैटर्न साझा करते हैं।
डोमेन-विशिष्ट ट्यूनिंग इन पैटर्नों को संबोधित करता है, लेकिन डेटा सेट को ठीक करने में महत्वपूर्ण निवेश और दस्तावेज़ प्रकारों के विकसित होने के साथ निरंतर रखरखाव की आवश्यकता होती है।
हाइब्रिड आर्किटेक्चर समाधान
फॉल्स पॉजिटिव समस्या को संरचनात्मक रूप से हाइब्रिड पहचान के माध्यम से हल किया जा सकता है जो संरचित डेटा (जहां regex 100% सटीकता प्रदान करता है) को संदर्भ डेटा (जहां ML पैटर्न पहचान के साथ कैलिब्रेटेड आत्मविश्वास प्रदान करता है) से अलग करता है।
संरचित पहचानकर्ताओं के लिए Regex: SSNs, फोन नंबर, ईमेल पते, क्रेडिट कार्ड नंबर, राष्ट्रीय आईडी प्रारूप, बैंक खाता नंबर। ये प्रारूप निश्चित होते हैं - एक स्ट्रिंग या तो पैटर्न से मेल खाती है और चेकसम सत्यापन पास करती है या नहीं। वैध कार्यान्वयन के लिए शून्य फॉल्स पॉजिटिव।
संदर्भ संस्थाओं के लिए NLP: व्यक्ति नाम, संगठन के नाम, असंरचित पाठ में स्थान। NLP मॉडल उन संस्थाओं के लिए पुनः प्राप्ति प्रदान करते हैं जिनमें संरचनात्मक पैटर्न की कमी होती है। आत्मविश्वास स्कोरिंग और संदर्भ शब्द आवश्यकताएँ फॉल्स पॉजिटिव को कम करती हैं।
प्रत्येक संस्थान प्रकार के लिए थ्रेशोल्ड कॉन्फ़िगरेशन: व्यक्ति नामों के लिए 90% आत्मविश्वास थ्रेशोल्ड सेट करना जबकि SSNs के लिए regex-निश्चितता (प्रभावी रूप से 100%) का उपयोग करना डोमेन-विशिष्ट फॉल्स पॉजिटिव सहिष्णुता के लिए कैलिब्रेशन की अनुमति देता है। कानूनी टीमें जो अधिक-रेडैक्शन जोखिम सहन नहीं कर सकतीं, उच्च थ्रेशोल्ड सेट करती हैं; क्लिनिकल अनुसंधान टीमें जो पहचान रहित पुनः प्राप्ति को अधिकतम करना चाहती हैं, निम्न थ्रेशोल्ड सेट करती हैं।
परिणाम: Presidio डिफ़ॉल्ट से नाटकीय रूप से कम फॉल्स पॉजिटिव दरें जबकि शुद्ध पैटर्न मिलान जो प्राप्त नहीं कर सकता है, को बनाए रखते हुए। कानूनी और स्वास्थ्य सेवा संगठनों के लिए जो स्वचालित रेडैक्शन उपकरणों का मूल्यांकन कर रहे हैं, सटीकता-प्राप्ति व्यापार संतुलन प्रबंधनीय है - लेकिन केवल एक उपकरण के साथ जो इसे एक कॉन्फ़िगर करने योग्य पैरामीटर के रूप में उजागर करता है न कि एक निश्चित प्रणाली व्यवहार के रूप में।
स्रोत: