ब्लॉग पर वापस जाएँGDPR और अनुपालन

KYC दस्तावेज़ प्रसंस्करण का पैमाना: PII स्वचालन की...

एक डिजिटल बैंक जो 15 EU देशों में प्रतिदिन 5,000 KYC आवेदन प्रसंस्करण करता है, ने पाया कि उनका PII पहचान चरण 2-दिन की बैकलॉग बना रहा है। केवल 5%...

March 28, 20267 मिनट पढ़ें
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

KYC की प्रतिस्पर्धी अनुपालन आवश्यकताएँ

Know Your Customer (KYC) अनुपालन वित्तीय प्रौद्योगिकी संचालन में एक विशिष्ट तनाव उत्पन्न करता है: नियामक गहन पहचान सत्यापन की आवश्यकता करते हैं - व्यक्तिगत दस्तावेज़ों को एकत्रित और सत्यापित करना - जबकि डेटा सुरक्षा नियमों को एकत्र किए गए व्यक्तिगत डेटा को न्यूनतम और सुरक्षित रखने की आवश्यकता होती है।

एक डिजिटल बैंक जो एक नए खाता आवेदक के लिए KYC पूरा करता है, पहचान दस्तावेज़ (राष्ट्रीय पहचान पत्र, पासपोर्ट, ड्राइविंग लाइसेंस), पते का प्रमाण, और वित्तीय सत्यापन दस्तावेज़ एकत्र करता है। इन दस्तावेज़ों में ठीक वही व्यक्तिगत डेटा होता है जिसे GDPR, AML नियमों, और बैंकिंग पर्यवेक्षी प्राधिकरणों द्वारा सबसे सख्त डेटा सुरक्षा उपायों के साथ संभालने की आवश्यकता होती है।

जब उस एकत्रित डेटा का उपयोग विश्लेषण के लिए किया जाता है, धोखाधड़ी पहचान प्रणालियों के साथ साझा किया जाता है, या ML मॉडल प्रशिक्षण के लिए संसाधित किया जाता है, तो GDPR के डेटा न्यूनतमकरण और उद्देश्य सीमित करने के सिद्धांतों की आवश्यकता होती है कि व्यक्तिगत डेटा का उपयोग करने से पहले उसे अनामित या उपनामित किया जाए।

2-दिन की बैकलॉग समस्या

एक डिजिटल बैंकिंग प्लेटफॉर्म जो 15 यूरोपीय देशों में प्रतिदिन 5,000 KYC आवेदन प्रसंस्करण करता है, ने अपने PII पहचान चरण में एक विशिष्ट परिचालन समस्या का सामना किया: उनके स्वचालित पहचान प्रणाली में गलत सकारात्मक दर ने समीक्षा कतारें बनाई जो 2-दिन की बैकलॉग तक बढ़ गईं।

बैकलॉग का स्रोत: उनका ML-आधारित PII पहचान उपकरण KYC दस्तावेज़ों में लगभग 8% गैर-PII पाठ को संभावित व्यक्तिगत डेटा के रूप में चिह्नित कर रहा था। प्रतिदिन 5,000 आवेदनों के साथ, प्रत्येक आवेदन में कई दस्तावेज़ होते हैं जो दर्जनों पृष्ठों में होते हैं, गलत सकारात्मक मात्रा उस अनुपालन टीम की समीक्षा करने की क्षमता से अधिक थी जो उसी व्यावसायिक दिन में कर सकती थी।

गलत सकारात्मक प्रणालीगत और पूर्वानुमानित थे:

  • पते के दस्तावेज़ों में कंपनी के नाम व्यक्ति के नाम के रूप में चिह्नित किए गए (ML मॉडल का नाम पहचानकर्ता उचित संज्ञाओं को भ्रमित करता है)
  • संदर्भ संख्या और आवेदन कोड संभावित पहचान संख्या के रूप में चिह्नित किए गए (चेकसम सत्यापन के बिना संख्यात्मक पैटर्न मिलान)
  • "Chase" और इसी तरह के सामान्य दिए गए नाम संस्थानों के नाम में व्यक्ति-नाम PII के रूप में चिह्नित किए गए

प्रत्येक गलत सकारात्मक की पुष्टि या अस्वीकार करने के लिए मानव समीक्षा की आवश्यकता थी। 5,000 आवेदनों में 8% गलत सकारात्मक दर के साथ, इसका अर्थ था कि हजारों दैनिक समीक्षा कार्य थे जिन्हें स्वचालित नहीं किया जा सकता था।

ACL अनुसंधान क्या दिखाता है

ACL 2024 अनुसंधान ने PII पहचान के लिए बहुभाषी NLP मॉडलों का मूल्यांकन करते हुए पाया कि केवल 5% बहुभाषी NLP मॉडल गैर-अंग्रेजी PII पहचान के लिए 85% F1-स्कोर से बेहतर प्राप्त करते हैं सभी 24 EU भाषाओं में

F1-स्कोर सटीकता और पुनःकाल को मिलाता है - एक मॉडल जिसमें उच्च पुनःकाल लेकिन कम सटीकता (कई गलत सकारात्मक) होता है, खराब स्कोर करता है, जैसे कि एक मॉडल जिसमें उच्च सटीकता लेकिन कम पुनःकाल (कई गलत नकारात्मक) होता है। सभी 24 EU भाषाओं में 85% F1 तक पहुँचने की 95% विफलता दर उस मॉडल को बनाने की कठिनाई को दर्शाती है जो पूरे EU भाषा सेट में सटीक और व्यापक दोनों हो।

विपरीत के लिए, XLM-RoBERTa PII पहचान कार्यों के लिए 91.4% क्रॉस-भाषाई F1 प्राप्त करता है, HuggingFace 2024 बेंचमार्किंग के अनुसार। 91.4% और बहुभाषी NLP मॉडलों के मध्य प्रदर्शन के बीच का अंतर बताता है कि कई वित्तीय प्रौद्योगिकी संगठन KYC कार्यप्रवाहों पर तैयार बहुभाषी पहचान लागू करते समय परिचालन समस्याओं का सामना क्यों करते हैं।

उच्च मात्रा वाले KYC के लिए हाइब्रिड समाधान

KYC संचालन जो कई EU अधिकार क्षेत्रों में पहचान दस्तावेज़ों की उच्च मात्रा को संसाधित करते हैं, उनके लिए गलत सकारात्मक समस्या वास्तुशिल्प विकल्पों के माध्यम से हल की जा सकती है:

चेकसम सत्यापन के साथ संरचित पहचानकर्ता regex: राष्ट्रीय पहचान संख्या (जर्मन Steuer-ID, डच BSN, पोलिश PESEL, आदि) के लिए निश्चित सत्यापन एल्गोरिदम होते हैं। प्रारूप + चेकसम सत्यापन के आधार पर पहचान के लिए पहचानकर्ता के लिए लगभग शून्य गलत सकारात्मक दर उत्पन्न होती है - एक संदर्भ संख्या जो राष्ट्रीय पहचान चेकसम एल्गोरिदम को पास नहीं करती है, वह राष्ट्रीय पहचान नहीं है, इसके संख्यात्मक लंबाई की परवाह किए बिना।

नामों और मुक्त-पाठ PII के लिए संदर्भ-सचेत NLP: पहचान दस्तावेज़ों में व्यक्ति के नाम पूर्वानुमानित संदर्भों में प्रकट होते हैं ("नाम:", "उपनाम:", विशिष्ट फॉर्म फ़ील्ड)। NLP पहचान के लिए संदर्भ शब्द आवश्यकताएँ गैर-नाम संदर्भों (संस्थान नाम, संदर्भ लेबल) में नाम-जैसे स्ट्रिंग्स से गलत सकारात्मक को कम करती हैं।

दस्तावेज़ प्रकार द्वारा थ्रेशोल्ड कॉन्फ़िगरेशन: KYC दस्तावेज़ों में ग्राहक सहायता ईमेल या नैदानिक नोट्स की तुलना में विभिन्न PII वितरण होते हैं। दस्तावेज़ प्रकारों के लिए अलग-अलग पहचान थ्रेशोल्ड कॉन्फ़िगर करना - उच्च मात्रा वाले KYC प्रसंस्करण के लिए उच्च सटीकता, नैदानिक पहचान के लिए उच्च पुनःकाल - परिचालन आवश्यकताओं के अनुसार ट्यूनिंग की अनुमति देता है बजाय इसके कि एक आकार सभी के लिए उपयुक्त डिफ़ॉल्ट को स्वीकार किया जाए।

बैकलॉग समस्या PII स्वचालन की लागत नहीं है। यह उच्च मात्रा वाले बहुभाषी KYC के परिचालन आवश्यकताओं के लिए कॉन्फ़िगर नहीं किए गए उपकरणों का उपयोग करने की लागत है।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।