KYC के प्रतिस्पर्धी नियम
Know Your Customer (KYC) नियम फिनटेक कंपनियों के लिए एक वास्तविक तनाव पैदा करते हैं। नियामक गहन पहचान जाँच चाहते हैं। वे कंपनियों से व्यक्तिगत दस्तावेज़ एकत्र करने और सत्यापित करने की आवश्यकता करते हैं। लेकिन डेटा कानून विपरीत दिशा में धकेलते हैं। वे कंपनियों से एकत्र होने के बाद उस डेटा को न्यूनतम करने की आवश्यकता करते हैं।
नया खाता खोलने वाला बैंक कई दस्तावेज़ एकत्र करता है। इनमें राष्ट्रीय ID कार्ड, पासपोर्ट और ड्राइविंग लाइसेंस शामिल हैं। इसमें पते का प्रमाण और वित्तीय कागज़ात भी शामिल हैं। इन फ़ाइलों में घना व्यक्तिगत डेटा होता है। GDPR, AML नियम और बैंकिंग पर्यवेक्षक सभी सख्त संभालने की आवश्यकता करते हैं।
जब वह डेटा धोखाधड़ी प्रणालियों या विश्लेषण में जाता है, तो अतिरिक्त नियम लागू होते हैं। GDPR के डेटा नियम लागू होते हैं। किसी भी दूसरे उपयोग से पहले व्यक्तिगत डेटा को मास्क या डी-पहचाना जाना चाहिए।
2-दिन की बैकलॉग समस्या
एक डिजिटल बैंक 15 EU देशों में प्रतिदिन 5,000 KYC आवेदन संसाधित करता था। उनके PII स्कैन चरण ने एक गंभीर समस्या पैदा की। गलत-सकारात्मक दर बहुत अधिक थी। समीक्षा कतारें बढ़ती रहीं जब तक 2-दिन की बैकलॉग नहीं पहुँच गई।
मूल कारण स्पष्ट था। उनका ML-आधारित टूल लगभग 8% गैर-PII पाठ को व्यक्तिगत डेटा के रूप में फ़्लैग करता था। प्रत्येक फ़ाइल में कई पृष्ठ थे। दैनिक गलत-सकारात्मक मात्रा टीम के लिए एक दिन में साफ़ करने के लिए बहुत बड़ी थी। वे पीछे पड़ते रहे।
गलत-सकारात्मक तीन समूहों में आए:
- व्यक्ति नामों के रूप में फ़्लैग किए गए कंपनी नाम (मॉडल ने उचित संज्ञाओं को भ्रमित किया)
- ID नंबरों के रूप में फ़्लैग किए गए संदर्भ कोड (कोई चेकसम जाँच नहीं थी)
- बैंक नामों में "Chase" जैसे सामान्य प्रथम नाम व्यक्ति-नाम PII के रूप में फ़्लैग किए गए
प्रत्येक गलत-सकारात्मक को मानव समीक्षा की आवश्यकता थी। 5,000 दैनिक फ़ाइलों में 8% पर, यह हज़ारों दैनिक कार्य उत्पन्न करता था। इनमें से किसी को भी स्वचालित नहीं किया जा सकता था।
ACL शोध क्या दिखाता है
ACL 2024 शोध ने PII डिटेक्शन के लिए बहुभाषी NLP मॉडल का परीक्षण किया। खोज स्पष्ट थी। केवल 5% बहुभाषी NLP मॉडल गैर-अंग्रेज़ी PII के लिए 85% से बेहतर F1-स्कोर तक पहुँचते हैं सभी 24 EU भाषाओं में।
F1-स्कोर सटीकता और रिकॉल को मिलाता है। कम सटीकता का अर्थ है कई गलत-सकारात्मक। कम रिकॉल का अर्थ है कई छूटे हुए आइटम। दोनों परिणाम खराब स्कोर करते हैं। 85% F1 तक पहुँचने में 95% विफलता दर दिखाती है कि व्यवहार में क्रॉस-लिंगुअल PII स्कैनिंग कितनी कठिन है।
इसके विपरीत, XLM-RoBERTa PII कार्यों के लिए 91.4% क्रॉस-लिंगुअल F1 प्राप्त करता है। यह आंकड़ा HuggingFace 2024 बेंचमार्किंग से है। 91.4% और माध्यिका मॉडल के बीच का अंतर बताता है कि बहुभाषी KYC में ऑफ-द-शेल्फ टूल क्यों विफल होते हैं।
उच्च-मात्रा KYC के लिए हाइब्रिड डिज़ाइन
गलत-सकारात्मक समस्या हल करने योग्य है। तीन डिज़ाइन विकल्प इसे ठीक करते हैं।
चेकसम जाँच के साथ रेगेक्स: राष्ट्रीय ID नंबरों के निश्चित नियम होते हैं। जर्मन Steuer-ID, डच BSN और पोलिश PESEL प्रत्येक चेकसम गणित का उपयोग करते हैं। यदि कोई नंबर चेकसम विफल करता है, तो यह राष्ट्रीय ID नहीं है। फ़ॉर्मेट और चेकसम इन IDs के लिए लगभग-शून्य गलत-सकारात्मक उत्पन्न करते हैं।
नामों के लिए संदर्भ-जागरूक NLP: KYC फ़ाइलों में व्यक्ति नाम ज्ञात स्थानों पर दिखाई देते हैं। इनमें "Name:", "Surname:" और निर्धारित फ़ॉर्म फ़ील्ड शामिल हैं। किसी नाम को फ़्लैग करने से पहले संदर्भ शब्द की आवश्यकता करना गलत-सकारात्मक घटाता है। यह फ़र्म नामों को व्यक्ति-नाम अलर्ट ट्रिगर करने से रोकता है।
फ़ाइल प्रकार के अनुसार थ्रेशोल्ड ट्यूनिंग: KYC फ़ाइलें सपोर्ट ईमेल या चिकित्सा नोट से भिन्न होती हैं। प्रत्येक प्रकार में एक अलग PII मिश्रण होता है। फ़ाइल प्रकार के अनुसार थ्रेशोल्ड सेट करना टीमों को अपनी आवश्यकताओं के लिए ट्यून करने देता है। उच्च-मात्रा KYC को उच्च सटीकता मिलती है। चिकित्सा डी-पहचान को उच्च रिकॉल मिलता है।
2-दिन की बैकलॉग PII स्कैनिंग की अपरिहार्य लागत नहीं है। यह एक विशिष्ट वर्कफ़्लो पर जेनेरिक टूल उपयोग करने की लागत है। समाधान सेटअप है, बड़ी टीम नहीं।
हमारा GDPR अनुपालन गाइड डेटा न्यूनीकरण नियमों को कवर करता है। हमारा सुरक्षा और अनुपालन अवलोकन तकनीकी नियंत्रण समझाता है जो अनुपालन KYC वर्कफ़्लो का समर्थन करते हैं।