قوانین رقیب KYC
قوانین شناخت مشتری (KYC) یک تنش واقعی برای شرکتهای فینتک ایجاد میکنند. نهادهای نظارتی خواهان بررسیهای هویتی کامل هستند. آنها از شرکتها میخواهند اسناد شخصی را جمعآوری و تأیید کنند. اما قوانین داده فشار معکوسی دارند. آنها از شرکتها میخواهند که پس از جمعآوری دادهها را به حداقل برسانند.
یک بانک که حساب جدید باز میکند اسناد زیادی جمعآوری میکند. این موارد شامل کارتهای شناسایی ملی، گذرنامهها و گواهینامههای رانندگی هستند. همچنین مدارک آدرس و اسناد مالی را جمعآوری میکند. این فایلها دارای دادههای شخصی متراکم هستند. GDPR، قوانین AML و ناظران بانکی همگی مدیریت دقیق را الزام میکنند.
وقتی این دادهها به سیستمهای تقلب یا تحلیل منتقل میشوند، قوانین اضافی اعمال میشوند. قوانین داده GDPR وارد میشوند. دادههای شخصی باید قبل از هر استفاده ثانوی ماسک یا ناشناس شوند.
مشکل تأخیر ۲ روزه
یک بانک دیجیتال روزانه ۵۰۰۰ درخواست KYC در ۱۵ کشور اروپایی پردازش میکرد. مرحله اسکن اطلاعات شخصی مشکل جدی ایجاد کرد. نرخ مثبت کاذب خیلی بالا بود. صفهای بررسی رشد کردند تا به یک تأخیر ۲ روزه رسیدند.
ریشه مشکل روشن بود. ابزار مبتنی بر ML آنها تقریباً ۸٪ متن غیر اطلاعات شخصی را بهعنوان داده شخصی علامتگذاری میکرد. هر فایل چندین صفحه داشت. حجم روزانه مثبت کاذب برای تیم زیادی بود که در یک روز پاک کنند. آنها دائماً عقب میافتادند.
مثبتهای کاذب در سه گروه بودند:
- نامهای شرکت به اشتباه بهعنوان نام شخص علامتگذاری شدند (مدل اسم خاص را اشتباه تشخیص داد)
- کدهای مرجع به اشتباه بهعنوان شماره شناسه علامتگذاری شدند (بررسی جمعباق انجام نشد)
- نامهای رایج مثل «Chase» در نامهای بانک بهعنوان اطلاعات شخصی شخصی علامتگذاری شدند
هر مثبت کاذب نیاز به بررسی انسانی داشت. با ۸٪ از ۵۰۰۰ فایل روزانه، هزاران وظیفه روزانه ایجاد میشد. هیچکدام قابل خودکارسازی نبودند.
نتایج تحقیقات ACL
تحقیقات ACL 2024 مدلهای NLP چندزبانه را برای تشخیص اطلاعات شخصی آزمایش کرد. یافته چشمگیر بود: فقط ۵٪ از مدلهای NLP چندزبانه به F1-score بالاتر از ۸۵٪ برای اطلاعات شخصی غیرانگلیسی در همه ۲۴ زبان اروپایی دست مییابند.
F1-score دقت و بازیابی را ترکیب میکند. دقت پایین یعنی مثبتهای کاذب زیاد. بازیابی پایین یعنی موارد از دست رفته زیاد. هر دو نتیجه نمره ضعیفی میگیرند. نرخ شکست ۹۵٪ در رسیدن به F1 85٪ نشان میدهد که اسکن اطلاعات شخصی چندزبانه در عمل چقدر دشوار است.
در مقابل، XLM-RoBERTa به F1 چندزبانه ۹۱.۴٪ برای وظایف اطلاعات شخصی دست مییابد. این رقم از معیارسنجی HuggingFace 2024 است. شکاف بین ۹۱.۴٪ و میانگین مدل توضیح میدهد که چرا ابزارهای آمادهبهکار در KYC چندزبانه شکست میخورند.
طراحی ترکیبی برای KYC حجم بالا
مشکل مثبت کاذب قابل حل است. سه انتخاب طراحی آن را برطرف میکند.
عبارت منظم با بررسی جمعباق: شمارههای شناسه ملی قوانین ثابتی دارند. Steuer-ID آلمان، BSN هلند و PESEL لهستان هر کدام از ریاضیات جمعباق استفاده میکنند. اگر یک عدد جمعباق را رد کند، یک شناسه ملی نیست. قالب بهعلاوه جمعباق مثبتهای کاذب نزدیک به صفر برای این شناسهها تولید میکند.
NLP آگاه از زمینه برای نامها: نامهای شخص در فایلهای KYC در مکانهای مشخصی ظاهر میشوند. اینها شامل «نام:»، «نام خانوادگی:» و فیلدهای فرم مشخص هستند. نیاز به یک کلمه زمینه قبل از علامتگذاری یک نام، مثبتهای کاذب را کاهش میدهد. از علامتگذاری نام شرکتها بهعنوان هشدار نام شخص جلوگیری میکند.
تنظیم آستانه بر اساس نوع فایل: فایلهای KYC با ایمیلهای پشتیبانی یا یادداشتهای پزشکی متفاوتند. هر نوع ترکیب اطلاعات شخصی متفاوتی دارد. تنظیم آستانهها بر اساس نوع فایل به تیمها اجازه میدهد برای نیازهای خود تنظیم کنند. KYC حجم بالا دقت بالاتری دریافت میکند. شناسهزدایی پزشکی بازیابی بالاتری دریافت میکند.
تأخیر ۲ روزه هزینه اجتنابناپذیر اسکن اطلاعات شخصی نیست. هزینه استفاده از ابزارهای عمومی در یک گردش کاری خاص است. راهحل تنظیمات است، نه یک تیم بزرگتر.
راهنمای انطباق GDPR ما قوانین به حداقل رساندن داده را پوشش میدهد. مرور امنیت و انطباق ما کنترلهای فنی که از گردشهای کاری KYC منطبق پشتیبانی میکنند را توضیح میدهد.