KYC-র প্রতিযোগী নিয়ম

Know Your Customer (KYC) নিয়ম fintech কোম্পানিগুলোর জন্য একটি প্রকৃত উত্তেজনা তৈরি করে। নিয়ন্ত্রকরা পুঙ্খানুপুঙ্খ পরিচয় যাচাই চান। তারা কোম্পানিগুলোকে ব্যক্তিগত ডকুমেন্ট সংগ্রহ ও যাচাই করতে দাবি করে। কিন্তু ডেটা আইন বিপরীত দিকে ঠেলে দেয়। তারা কোম্পানিগুলোকে সংগৃহীত ডেটা সীমিত রাখতে দাবি করে।

নতুন অ্যাকাউন্ট খোলার সময় একটি ব্যাংক অনেক ডকুমেন্ট সংগ্রহ করে। এর মধ্যে জাতীয় ID কার্ড, পাসপোর্ট এবং ড্রাইভিং লাইসেন্স রয়েছে। এছাড়াও ঠিকানার প্রমাণ এবং আর্থিক কাগজপত্র সংগ্রহ করে। এই ফাইলগুলো ঘন ব্যক্তিগত ডেটা ধারণ করে। GDPR, AML নিয়ম এবং ব্যাংকিং তত্ত্বাবধায়করা সবাই কঠোর পরিচালনার দাবি করে।

যখন সেই ডেটা fraud সিস্টেম বা analytics-এ যায়, অতিরিক্ত নিয়ম প্রযোজ্য হয়। GDPR-এর ডেটা নিয়ম কার্যকর হয়। যেকোনো দ্বিতীয় ব্যবহারের আগে ব্যক্তিগত ডেটা masked বা de-identified হতে হবে।

২ দিনের Backlog সমস্যা

একটি ডিজিটাল ব্যাংক ১৫টি EU দেশ জুড়ে প্রতিদিন ৫,০০০ KYC আবেদন প্রক্রিয়া করেছিল। তাদের PII স্ক্যান ধাপ একটি গুরুতর সমস্যা সৃষ্টি করেছিল। False positive হার অনেক বেশি ছিল। রিভিউ কিউ বাড়তে বাড়তে ২ দিনের backlog-এ পৌঁছায়।

মূল কারণ স্পষ্ট ছিল। তাদের ML-ভিত্তিক টুল প্রায় ৮% non-PII টেক্সটকে ব্যক্তিগত ডেটা হিসাবে ফ্ল্যাগ করেছে। প্রতিটি ফাইলে অনেক পৃষ্ঠা ছিল। দৈনিক false positive ভলিউম দলটির পক্ষে এক দিনে পরিষ্কার করা সম্ভব ছিল না। তারা ক্রমাগত পিছিয়ে পড়ছিল।

False positive তিনটি গ্রুপে পড়ে:

কোম্পানির নাম ব্যক্তির নাম হিসাবে ফ্ল্যাগ করা (মডেল proper noun বিভ্রান্ত করেছিল)
রেফারেন্স কোড ID নম্বর হিসাবে ফ্ল্যাগ করা (কোনো checksum চেক ব্যবহার করা হয়নি)
ব্যাংকের নামে "Chase"-এর মতো সাধারণ প্রথম নাম person-name PII হিসাবে ফ্ল্যাগ করা

প্রতিটি false positive মানব পর্যালোচনা প্রয়োজন ছিল। ৫,০০০ দৈনিক ফাইলে ৮% হারে, এটি প্রতিদিন হাজার হাজার কাজ তৈরি করে। এর কোনোটিই স্বয়ংক্রিয়ভাবে দূর করা সম্ভব ছিল না।

ACL গবেষণা কী দেখায়

ACL 2024 গবেষণা PII শনাক্তকরণের জন্য বহুভাষিক NLP মডেল পরীক্ষা করেছে। ফলাফল চমকপ্রদ ছিল। সমস্ত ২৪টি EU ভাষায় non-English PII-এর জন্য মাত্র ৫% বহুভাষিক NLP মডেল ৮৫% F1-score-এর চেয়ে ভালো পৌঁছায়।

F1-score নির্ভুলতা এবং recall একত্রিত করে। কম নির্ভুলতা মানে অনেক false positive। কম recall মানে অনেক মিস হওয়া আইটেম। উভয় ফলাফলই দুর্বল স্কোর করে। ৮৫% F1 পৌঁছানোর ৯৫% ব্যর্থতার হার দেখায় যে ব্যবহারিকভাবে cross-lingual PII স্ক্যানিং কতটা কঠিন।

বিপরীতে, XLM-RoBERTa PII কাজের জন্য ৯১.৪% cross-lingual F1 অর্জন করে। এই সংখ্যাটি HuggingFace 2024 benchmarking থেকে। ৯১.৪% এবং median মডেলের মধ্যে ব্যবধান ব্যাখ্যা করে কেন off-the-shelf টুল বহুভাষিক KYC-তে ব্যর্থ হয়।

উচ্চ-ভলিউম KYC-র জন্য Hybrid ডিজাইন

False positive সমস্যা সমাধানযোগ্য। তিনটি ডিজাইন পছন্দ এটি ঠিক করে।

Checksum চেকিং সহ Regex: জাতীয় ID নম্বরের নির্দিষ্ট নিয়ম রয়েছে। German Steuer-ID, Dutch BSN, এবং Polish PESEL প্রতিটি checksum গণিত ব্যবহার করে। যদি একটি নম্বর checksum ব্যর্থ হয়, তাহলে এটি একটি জাতীয় ID নয়। ফরম্যাট এবং checksum এই ID-গুলোর জন্য প্রায় শূন্য false positive তৈরি করে।

নামের জন্য Context-aware NLP: KYC ফাইলে ব্যক্তির নাম পরিচিত জায়গায় দেখা যায়। এর মধ্যে "Name:", "Surname:", এবং নির্ধারিত ফর্ম ক্ষেত্র রয়েছে। একটি নাম ফ্ল্যাগ করার আগে একটি প্রসঙ্গ শব্দ দাবি করলে false positive কমে। এটি কোম্পানির নামকে person-name সতর্কতা ট্রিগার করা থেকে বিরত রাখে।

ফাইল টাইপ অনুযায়ী threshold tuning: KYC ফাইল সাপোর্ট ইমেইল বা মেডিকেল নোট থেকে আলাদা। প্রতিটি টাইপের আলাদা PII mix রয়েছে। প্রতিটি ফাইল টাইপে threshold নির্ধারণ দলগুলোকে তাদের প্রয়োজন অনুযায়ী tune করতে দেয়। উচ্চ-ভলিউম KYC উচ্চ নির্ভুলতা পায়। মেডিকেল de-identification উচ্চ recall পায়।

২ দিনের backlog PII স্ক্যানিংয়ের অপরিহার্য খরচ নয়। এটি একটি নির্দিষ্ট workflow-এ generic টুল ব্যবহারের খরচ। সমাধান হলো সেটআপ, বড় দল নয়।

আমাদের GDPR compliance guide ডেটা minimization নিয়ম কভার করে। আমাদের security and compliance overview সেই প্রযুক্তিগত নিয়ন্ত্রণ ব্যাখ্যা করে যা কমপ্লায়েন্ট KYC workflow সমর্থন করে।

সূত্র

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

স্কেলে KYC: False Positive খরচ

KYC-র প্রতিযোগী নিয়ম

২ দিনের Backlog সমস্যা

ACL গবেষণা কী দেখায়

উচ্চ-ভলিউম KYC-র জন্য Hybrid ডিজাইন

সূত্র

সম্পর্কিত নিবন্ধ

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

স্কেলে KYC: False Positive খরচ

KYC-র প্রতিযোগী নিয়ম

২ দিনের Backlog সমস্যা

ACL গবেষণা কী দেখায়

উচ্চ-ভলিউম KYC-র জন্য Hybrid ডিজাইন

সূত্র

সম্পর্কিত নিবন্ধ

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow