KYC के प्रतिस्पर्धी नियम

Know Your Customer (KYC) नियम फिनटेक कंपनियों के लिए एक वास्तविक तनाव पैदा करते हैं। नियामक गहन पहचान जाँच चाहते हैं। वे कंपनियों से व्यक्तिगत दस्तावेज़ एकत्र करने और सत्यापित करने की आवश्यकता करते हैं। लेकिन डेटा कानून विपरीत दिशा में धकेलते हैं। वे कंपनियों से एकत्र होने के बाद उस डेटा को न्यूनतम करने की आवश्यकता करते हैं।

नया खाता खोलने वाला बैंक कई दस्तावेज़ एकत्र करता है। इनमें राष्ट्रीय ID कार्ड, पासपोर्ट और ड्राइविंग लाइसेंस शामिल हैं। इसमें पते का प्रमाण और वित्तीय कागज़ात भी शामिल हैं। इन फ़ाइलों में घना व्यक्तिगत डेटा होता है। GDPR, AML नियम और बैंकिंग पर्यवेक्षक सभी सख्त संभालने की आवश्यकता करते हैं।

जब वह डेटा धोखाधड़ी प्रणालियों या विश्लेषण में जाता है, तो अतिरिक्त नियम लागू होते हैं। GDPR के डेटा नियम लागू होते हैं। किसी भी दूसरे उपयोग से पहले व्यक्तिगत डेटा को मास्क या डी-पहचाना जाना चाहिए।

2-दिन की बैकलॉग समस्या

एक डिजिटल बैंक 15 EU देशों में प्रतिदिन 5,000 KYC आवेदन संसाधित करता था। उनके PII स्कैन चरण ने एक गंभीर समस्या पैदा की। गलत-सकारात्मक दर बहुत अधिक थी। समीक्षा कतारें बढ़ती रहीं जब तक 2-दिन की बैकलॉग नहीं पहुँच गई।

मूल कारण स्पष्ट था। उनका ML-आधारित टूल लगभग 8% गैर-PII पाठ को व्यक्तिगत डेटा के रूप में फ़्लैग करता था। प्रत्येक फ़ाइल में कई पृष्ठ थे। दैनिक गलत-सकारात्मक मात्रा टीम के लिए एक दिन में साफ़ करने के लिए बहुत बड़ी थी। वे पीछे पड़ते रहे।

गलत-सकारात्मक तीन समूहों में आए:

व्यक्ति नामों के रूप में फ़्लैग किए गए कंपनी नाम (मॉडल ने उचित संज्ञाओं को भ्रमित किया)
ID नंबरों के रूप में फ़्लैग किए गए संदर्भ कोड (कोई चेकसम जाँच नहीं थी)
बैंक नामों में "Chase" जैसे सामान्य प्रथम नाम व्यक्ति-नाम PII के रूप में फ़्लैग किए गए

प्रत्येक गलत-सकारात्मक को मानव समीक्षा की आवश्यकता थी। 5,000 दैनिक फ़ाइलों में 8% पर, यह हज़ारों दैनिक कार्य उत्पन्न करता था। इनमें से किसी को भी स्वचालित नहीं किया जा सकता था।

ACL शोध क्या दिखाता है

ACL 2024 शोध ने PII डिटेक्शन के लिए बहुभाषी NLP मॉडल का परीक्षण किया। खोज स्पष्ट थी। केवल 5% बहुभाषी NLP मॉडल गैर-अंग्रेज़ी PII के लिए 85% से बेहतर F1-स्कोर तक पहुँचते हैं सभी 24 EU भाषाओं में।

F1-स्कोर सटीकता और रिकॉल को मिलाता है। कम सटीकता का अर्थ है कई गलत-सकारात्मक। कम रिकॉल का अर्थ है कई छूटे हुए आइटम। दोनों परिणाम खराब स्कोर करते हैं। 85% F1 तक पहुँचने में 95% विफलता दर दिखाती है कि व्यवहार में क्रॉस-लिंगुअल PII स्कैनिंग कितनी कठिन है।

इसके विपरीत, XLM-RoBERTa PII कार्यों के लिए 91.4% क्रॉस-लिंगुअल F1 प्राप्त करता है। यह आंकड़ा HuggingFace 2024 बेंचमार्किंग से है। 91.4% और माध्यिका मॉडल के बीच का अंतर बताता है कि बहुभाषी KYC में ऑफ-द-शेल्फ टूल क्यों विफल होते हैं।

उच्च-मात्रा KYC के लिए हाइब्रिड डिज़ाइन

गलत-सकारात्मक समस्या हल करने योग्य है। तीन डिज़ाइन विकल्प इसे ठीक करते हैं।

चेकसम जाँच के साथ रेगेक्स: राष्ट्रीय ID नंबरों के निश्चित नियम होते हैं। जर्मन Steuer-ID, डच BSN और पोलिश PESEL प्रत्येक चेकसम गणित का उपयोग करते हैं। यदि कोई नंबर चेकसम विफल करता है, तो यह राष्ट्रीय ID नहीं है। फ़ॉर्मेट और चेकसम इन IDs के लिए लगभग-शून्य गलत-सकारात्मक उत्पन्न करते हैं।

नामों के लिए संदर्भ-जागरूक NLP: KYC फ़ाइलों में व्यक्ति नाम ज्ञात स्थानों पर दिखाई देते हैं। इनमें "Name:", "Surname:" और निर्धारित फ़ॉर्म फ़ील्ड शामिल हैं। किसी नाम को फ़्लैग करने से पहले संदर्भ शब्द की आवश्यकता करना गलत-सकारात्मक घटाता है। यह फ़र्म नामों को व्यक्ति-नाम अलर्ट ट्रिगर करने से रोकता है।

फ़ाइल प्रकार के अनुसार थ्रेशोल्ड ट्यूनिंग: KYC फ़ाइलें सपोर्ट ईमेल या चिकित्सा नोट से भिन्न होती हैं। प्रत्येक प्रकार में एक अलग PII मिश्रण होता है। फ़ाइल प्रकार के अनुसार थ्रेशोल्ड सेट करना टीमों को अपनी आवश्यकताओं के लिए ट्यून करने देता है। उच्च-मात्रा KYC को उच्च सटीकता मिलती है। चिकित्सा डी-पहचान को उच्च रिकॉल मिलता है।

2-दिन की बैकलॉग PII स्कैनिंग की अपरिहार्य लागत नहीं है। यह एक विशिष्ट वर्कफ़्लो पर जेनेरिक टूल उपयोग करने की लागत है। समाधान सेटअप है, बड़ी टीम नहीं।

हमारा GDPR अनुपालन गाइड डेटा न्यूनीकरण नियमों को कवर करता है। हमारा सुरक्षा और अनुपालन अवलोकन तकनीकी नियंत्रण समझाता है जो अनुपालन KYC वर्कफ़्लो का समर्थन करते हैं।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

बड़े पैमाने पर KYC: गलत-सकारात्मक लागतें

KYC के प्रतिस्पर्धी नियम

2-दिन की बैकलॉग समस्या

ACL शोध क्या दिखाता है

उच्च-मात्रा KYC के लिए हाइब्रिड डिज़ाइन

स्रोत

संबंधित लेख

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

बड़े पैमाने पर KYC: गलत-सकारात्मक लागतें

KYC के प्रतिस्पर्धी नियम

2-दिन की बैकलॉग समस्या

ACL शोध क्या दिखाता है

उच्च-मात्रा KYC के लिए हाइब्रिड डिज़ाइन

स्रोत

संबंधित लेख

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow