قوانین رقیب KYC

قوانین شناخت مشتری (KYC) یک تنش واقعی برای شرکت‌های فین‌تک ایجاد می‌کنند. نهادهای نظارتی خواهان بررسی‌های هویتی کامل هستند. آن‌ها از شرکت‌ها می‌خواهند اسناد شخصی را جمع‌آوری و تأیید کنند. اما قوانین داده فشار معکوسی دارند. آن‌ها از شرکت‌ها می‌خواهند که پس از جمع‌آوری داده‌ها را به حداقل برسانند.

یک بانک که حساب جدید باز می‌کند اسناد زیادی جمع‌آوری می‌کند. این موارد شامل کارت‌های شناسایی ملی، گذرنامه‌ها و گواهینامه‌های رانندگی هستند. همچنین مدارک آدرس و اسناد مالی را جمع‌آوری می‌کند. این فایل‌ها دارای داده‌های شخصی متراکم هستند. GDPR، قوانین AML و ناظران بانکی همگی مدیریت دقیق را الزام می‌کنند.

وقتی این داده‌ها به سیستم‌های تقلب یا تحلیل منتقل می‌شوند، قوانین اضافی اعمال می‌شوند. قوانین داده GDPR وارد می‌شوند. داده‌های شخصی باید قبل از هر استفاده ثانوی ماسک یا ناشناس شوند.

مشکل تأخیر ۲ روزه

یک بانک دیجیتال روزانه ۵۰۰۰ درخواست KYC در ۱۵ کشور اروپایی پردازش می‌کرد. مرحله اسکن اطلاعات شخصی مشکل جدی ایجاد کرد. نرخ مثبت کاذب خیلی بالا بود. صف‌های بررسی رشد کردند تا به یک تأخیر ۲ روزه رسیدند.

ریشه مشکل روشن بود. ابزار مبتنی بر ML آن‌ها تقریباً ۸٪ متن غیر اطلاعات شخصی را به‌عنوان داده شخصی علامت‌گذاری می‌کرد. هر فایل چندین صفحه داشت. حجم روزانه مثبت کاذب برای تیم زیادی بود که در یک روز پاک کنند. آن‌ها دائماً عقب می‌افتادند.

مثبت‌های کاذب در سه گروه بودند:

نام‌های شرکت به اشتباه به‌عنوان نام شخص علامت‌گذاری شدند (مدل اسم خاص را اشتباه تشخیص داد)
کدهای مرجع به اشتباه به‌عنوان شماره شناسه علامت‌گذاری شدند (بررسی جمع‌باق انجام نشد)
نام‌های رایج مثل «Chase» در نام‌های بانک به‌عنوان اطلاعات شخصی شخصی علامت‌گذاری شدند

هر مثبت کاذب نیاز به بررسی انسانی داشت. با ۸٪ از ۵۰۰۰ فایل روزانه، هزاران وظیفه روزانه ایجاد می‌شد. هیچکدام قابل خودکارسازی نبودند.

نتایج تحقیقات ACL

تحقیقات ACL 2024 مدل‌های NLP چندزبانه را برای تشخیص اطلاعات شخصی آزمایش کرد. یافته چشمگیر بود: فقط ۵٪ از مدل‌های NLP چندزبانه به F1-score بالاتر از ۸۵٪ برای اطلاعات شخصی غیرانگلیسی در همه ۲۴ زبان اروپایی دست می‌یابند.

F1-score دقت و بازیابی را ترکیب می‌کند. دقت پایین یعنی مثبت‌های کاذب زیاد. بازیابی پایین یعنی موارد از دست رفته زیاد. هر دو نتیجه نمره ضعیفی می‌گیرند. نرخ شکست ۹۵٪ در رسیدن به F1 85٪ نشان می‌دهد که اسکن اطلاعات شخصی چندزبانه در عمل چقدر دشوار است.

در مقابل، XLM-RoBERTa به F1 چندزبانه ۹۱.۴٪ برای وظایف اطلاعات شخصی دست می‌یابد. این رقم از معیارسنجی HuggingFace 2024 است. شکاف بین ۹۱.۴٪ و میانگین مدل توضیح می‌دهد که چرا ابزارهای آماده‌به‌کار در KYC چندزبانه شکست می‌خورند.

طراحی ترکیبی برای KYC حجم بالا

مشکل مثبت کاذب قابل حل است. سه انتخاب طراحی آن را برطرف می‌کند.

عبارت منظم با بررسی جمع‌باق: شماره‌های شناسه ملی قوانین ثابتی دارند. Steuer-ID آلمان، BSN هلند و PESEL لهستان هر کدام از ریاضیات جمع‌باق استفاده می‌کنند. اگر یک عدد جمع‌باق را رد کند، یک شناسه ملی نیست. قالب به‌علاوه جمع‌باق مثبت‌های کاذب نزدیک به صفر برای این شناسه‌ها تولید می‌کند.

NLP آگاه از زمینه برای نام‌ها: نام‌های شخص در فایل‌های KYC در مکان‌های مشخصی ظاهر می‌شوند. این‌ها شامل «نام:»، «نام خانوادگی:» و فیلدهای فرم مشخص هستند. نیاز به یک کلمه زمینه قبل از علامت‌گذاری یک نام، مثبت‌های کاذب را کاهش می‌دهد. از علامت‌گذاری نام شرکت‌ها به‌عنوان هشدار نام شخص جلوگیری می‌کند.

تنظیم آستانه بر اساس نوع فایل: فایل‌های KYC با ایمیل‌های پشتیبانی یا یادداشت‌های پزشکی متفاوتند. هر نوع ترکیب اطلاعات شخصی متفاوتی دارد. تنظیم آستانه‌ها بر اساس نوع فایل به تیم‌ها اجازه می‌دهد برای نیازهای خود تنظیم کنند. KYC حجم بالا دقت بالاتری دریافت می‌کند. شناسه‌زدایی پزشکی بازیابی بالاتری دریافت می‌کند.

تأخیر ۲ روزه هزینه اجتناب‌ناپذیر اسکن اطلاعات شخصی نیست. هزینه استفاده از ابزارهای عمومی در یک گردش کاری خاص است. راه‌حل تنظیمات است، نه یک تیم بزرگتر.

راهنمای انطباق GDPR ما قوانین به حداقل رساندن داده را پوشش می‌دهد. مرور امنیت و انطباق ما کنترل‌های فنی که از گردش‌های کاری KYC منطبق پشتیبانی می‌کنند را توضیح می‌دهد.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

KYC در مقیاس: هزینه‌های مثبت کاذب

قوانین رقیب KYC

مشکل تأخیر ۲ روزه

نتایج تحقیقات ACL

طراحی ترکیبی برای KYC حجم بالا

منابع

مقالات مرتبط

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

آماده‌اید داده‌های خود را محافظت کنید؟

KYC در مقیاس: هزینه‌های مثبت کاذب

قوانین رقیب KYC

مشکل تأخیر ۲ روزه

نتایج تحقیقات ACL

طراحی ترکیبی برای KYC حجم بالا

منابع

مقالات مرتبط

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow