KYC-র প্রতিযোগী নিয়ম
Know Your Customer (KYC) নিয়ম fintech কোম্পানিগুলোর জন্য একটি প্রকৃত উত্তেজনা তৈরি করে। নিয়ন্ত্রকরা পুঙ্খানুপুঙ্খ পরিচয় যাচাই চান। তারা কোম্পানিগুলোকে ব্যক্তিগত ডকুমেন্ট সংগ্রহ ও যাচাই করতে দাবি করে। কিন্তু ডেটা আইন বিপরীত দিকে ঠেলে দেয়। তারা কোম্পানিগুলোকে সংগৃহীত ডেটা সীমিত রাখতে দাবি করে।
নতুন অ্যাকাউন্ট খোলার সময় একটি ব্যাংক অনেক ডকুমেন্ট সংগ্রহ করে। এর মধ্যে জাতীয় ID কার্ড, পাসপোর্ট এবং ড্রাইভিং লাইসেন্স রয়েছে। এছাড়াও ঠিকানার প্রমাণ এবং আর্থিক কাগজপত্র সংগ্রহ করে। এই ফাইলগুলো ঘন ব্যক্তিগত ডেটা ধারণ করে। GDPR, AML নিয়ম এবং ব্যাংকিং তত্ত্বাবধায়করা সবাই কঠোর পরিচালনার দাবি করে।
যখন সেই ডেটা fraud সিস্টেম বা analytics-এ যায়, অতিরিক্ত নিয়ম প্রযোজ্য হয়। GDPR-এর ডেটা নিয়ম কার্যকর হয়। যেকোনো দ্বিতীয় ব্যবহারের আগে ব্যক্তিগত ডেটা masked বা de-identified হতে হবে।
২ দিনের Backlog সমস্যা
একটি ডিজিটাল ব্যাংক ১৫টি EU দেশ জুড়ে প্রতিদিন ৫,০০০ KYC আবেদন প্রক্রিয়া করেছিল। তাদের PII স্ক্যান ধাপ একটি গুরুতর সমস্যা সৃষ্টি করেছিল। False positive হার অনেক বেশি ছিল। রিভিউ কিউ বাড়তে বাড়তে ২ দিনের backlog-এ পৌঁছায়।
মূল কারণ স্পষ্ট ছিল। তাদের ML-ভিত্তিক টুল প্রায় ৮% non-PII টেক্সটকে ব্যক্তিগত ডেটা হিসাবে ফ্ল্যাগ করেছে। প্রতিটি ফাইলে অনেক পৃষ্ঠা ছিল। দৈনিক false positive ভলিউম দলটির পক্ষে এক দিনে পরিষ্কার করা সম্ভব ছিল না। তারা ক্রমাগত পিছিয়ে পড়ছিল।
False positive তিনটি গ্রুপে পড়ে:
- কোম্পানির নাম ব্যক্তির নাম হিসাবে ফ্ল্যাগ করা (মডেল proper noun বিভ্রান্ত করেছিল)
- রেফারেন্স কোড ID নম্বর হিসাবে ফ্ল্যাগ করা (কোনো checksum চেক ব্যবহার করা হয়নি)
- ব্যাংকের নামে "Chase"-এর মতো সাধারণ প্রথম নাম person-name PII হিসাবে ফ্ল্যাগ করা
প্রতিটি false positive মানব পর্যালোচনা প্রয়োজন ছিল। ৫,০০০ দৈনিক ফাইলে ৮% হারে, এটি প্রতিদিন হাজার হাজার কাজ তৈরি করে। এর কোনোটিই স্বয়ংক্রিয়ভাবে দূর করা সম্ভব ছিল না।
ACL গবেষণা কী দেখায়
ACL 2024 গবেষণা PII শনাক্তকরণের জন্য বহুভাষিক NLP মডেল পরীক্ষা করেছে। ফলাফল চমকপ্রদ ছিল। সমস্ত ২৪টি EU ভাষায় non-English PII-এর জন্য মাত্র ৫% বহুভাষিক NLP মডেল ৮৫% F1-score-এর চেয়ে ভালো পৌঁছায়।
F1-score নির্ভুলতা এবং recall একত্রিত করে। কম নির্ভুলতা মানে অনেক false positive। কম recall মানে অনেক মিস হওয়া আইটেম। উভয় ফলাফলই দুর্বল স্কোর করে। ৮৫% F1 পৌঁছানোর ৯৫% ব্যর্থতার হার দেখায় যে ব্যবহারিকভাবে cross-lingual PII স্ক্যানিং কতটা কঠিন।
বিপরীতে, XLM-RoBERTa PII কাজের জন্য ৯১.৪% cross-lingual F1 অর্জন করে। এই সংখ্যাটি HuggingFace 2024 benchmarking থেকে। ৯১.৪% এবং median মডেলের মধ্যে ব্যবধান ব্যাখ্যা করে কেন off-the-shelf টুল বহুভাষিক KYC-তে ব্যর্থ হয়।
উচ্চ-ভলিউম KYC-র জন্য Hybrid ডিজাইন
False positive সমস্যা সমাধানযোগ্য। তিনটি ডিজাইন পছন্দ এটি ঠিক করে।
Checksum চেকিং সহ Regex: জাতীয় ID নম্বরের নির্দিষ্ট নিয়ম রয়েছে। German Steuer-ID, Dutch BSN, এবং Polish PESEL প্রতিটি checksum গণিত ব্যবহার করে। যদি একটি নম্বর checksum ব্যর্থ হয়, তাহলে এটি একটি জাতীয় ID নয়। ফরম্যাট এবং checksum এই ID-গুলোর জন্য প্রায় শূন্য false positive তৈরি করে।
নামের জন্য Context-aware NLP: KYC ফাইলে ব্যক্তির নাম পরিচিত জায়গায় দেখা যায়। এর মধ্যে "Name:", "Surname:", এবং নির্ধারিত ফর্ম ক্ষেত্র রয়েছে। একটি নাম ফ্ল্যাগ করার আগে একটি প্রসঙ্গ শব্দ দাবি করলে false positive কমে। এটি কোম্পানির নামকে person-name সতর্কতা ট্রিগার করা থেকে বিরত রাখে।
ফাইল টাইপ অনুযায়ী threshold tuning: KYC ফাইল সাপোর্ট ইমেইল বা মেডিকেল নোট থেকে আলাদা। প্রতিটি টাইপের আলাদা PII mix রয়েছে। প্রতিটি ফাইল টাইপে threshold নির্ধারণ দলগুলোকে তাদের প্রয়োজন অনুযায়ী tune করতে দেয়। উচ্চ-ভলিউম KYC উচ্চ নির্ভুলতা পায়। মেডিকেল de-identification উচ্চ recall পায়।
২ দিনের backlog PII স্ক্যানিংয়ের অপরিহার্য খরচ নয়। এটি একটি নির্দিষ্ট workflow-এ generic টুল ব্যবহারের খরচ। সমাধান হলো সেটআপ, বড় দল নয়।
আমাদের GDPR compliance guide ডেটা minimization নিয়ম কভার করে। আমাদের security and compliance overview সেই প্রযুক্তিগত নিয়ন্ত্রণ ব্যাখ্যা করে যা কমপ্লায়েন্ট KYC workflow সমর্থন করে।