العودة إلى المدونةالامتثال لـ GDPR

معالجة مستندات KYC على نطاق واسع: لماذا تعتبر...

وجد بنك رقمي يعالج 5,000 طلب KYC يوميًا عبر 15 دولة في الاتحاد الأوروبي أن خطوة اكتشاف المعلومات الشخصية الخاصة بهم تسببت في تراكم لمدة يومين.

March 28, 20267 دقيقة قراءة
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

متطلبات الامتثال المتنافسة لـ KYC

يخلق الامتثال لمتطلبات "اعرف عميلك" (KYC) توترًا محددًا في عمليات التكنولوجيا المالية: تتطلب الجهات التنظيمية التحقق الدقيق من الهوية - جمع والتحقق من المستندات الشخصية - بينما تتطلب لوائح حماية البيانات تقليل وحماية تلك البيانات الشخصية بمجرد جمعها.

يجمع بنك رقمي يكمل KYC لمتقدم جديد للحصول على حساب مستندات الهوية (بطاقات الهوية الوطنية، جوازات السفر، رخص القيادة)، وإثبات العنوان، ومستندات التحقق المالي. تحتوي هذه المستندات على تركيزات عالية من البيانات الشخصية التي تتطلبها لوائح GDPR وAML والسلطات الإشرافية المصرفية أن تتم معالجتها بأكثر تدابير حماية البيانات صرامة.

عندما تُستخدم البيانات المجمعة للتحليلات، أو تُشارك مع أنظمة اكتشاف الاحتيال، أو تُعالج لتدريب نماذج التعلم الآلي، تتطلب مبادئ تقليل البيانات وتحديد الغرض في GDPR أن يتم إخفاء هوية البيانات الشخصية أو تحويلها إلى بيانات مستعارة قبل استخدامها في العمليات الثانوية.

مشكلة تراكم لمدة يومين

واجهت منصة مصرفية رقمية تعالج 5,000 طلب KYC يوميًا عبر 15 دولة أوروبية مشكلة تشغيلية محددة في خطوة اكتشاف المعلومات الشخصية الخاصة بهم: كانت نسبة الإيجابيات الكاذبة في نظام الاكتشاف الآلي الخاص بهم تخلق قوائم مراجعة تمتد إلى تراكم لمدة يومين.

مصدر التراكم: كانت أداة اكتشاف المعلومات الشخصية المستندة إلى التعلم الآلي تشير إلى حوالي 8% من النص غير المعلومات الشخصية في مستندات KYC كبيانات شخصية محتملة. مع وجود 5,000 طلب يوميًا، يحتوي كل طلب على مستندات متعددة تصل إلى عشرات الصفحات، تجاوز حجم الإيجابيات الكاذبة ما يمكن لفريق الامتثال مراجعته في نفس يوم العمل.

كانت الإيجابيات الكاذبة منهجية وقابلة للتنبؤ:

  • أسماء الشركات في مستندات العنوان تم الإشارة إليها كأسماء أشخاص (خلاط نموذج التعلم الآلي للأسماء خلط الأسماء الصحيحة)
  • أرقام المرجع وأكواد الطلب تم الإشارة إليها كأرقام هوية محتملة (مطابقة نمط رقمي بدون تحقق من صحة المجموع)
  • "تشيس" وأسماء شائعة مماثلة تظهر في أسماء المؤسسات تم الإشارة إليها كبيانات شخصية لأسماء الأشخاص

كل إيجابية كاذبة تتطلب مراجعة بشرية للتأكيد أو الرفض. عند معدل إيجابيات كاذبة يبلغ 8% عبر 5,000 طلب، ترجم ذلك إلى آلاف مهام المراجعة اليومية التي لم يكن بالإمكان أتمتتها.

ماذا تظهر أبحاث ACL

وجدت أبحاث ACL 2024 التي تقيم نماذج معالجة اللغة الطبيعية متعددة اللغات لاكتشاف المعلومات الشخصية أن 5% فقط من نماذج معالجة اللغة الطبيعية متعددة اللغات تحقق أفضل من 85% من درجة F1 لاكتشاف المعلومات الشخصية غير الإنجليزية عبر جميع لغات الاتحاد الأوروبي الـ24.

تجمع درجة F1 بين الدقة والاسترجاع - نموذج ذو استرجاع عالٍ ولكن دقة منخفضة (العديد من الإيجابيات الكاذبة) يسجل بشكل سيء، كما يفعل نموذج ذو دقة عالية ولكن استرجاع منخفض (العديد من السلبيات الكاذبة). تعكس نسبة الفشل البالغة 95% في الوصول إلى 85% F1 عبر جميع لغات الاتحاد الأوروبي الـ24 صعوبة بناء نموذج دقيق وشامل عبر مجموعة لغات الاتحاد الأوروبي الكاملة.

للمقارنة، يحقق XLM-RoBERTa 91.4% من درجة F1 عبر اللغات لمهام اكتشاف المعلومات الشخصية، وفقًا لمعايير HuggingFace 2024. تفسر الفجوة بين 91.4% والأداء الوسيط لنماذج معالجة اللغة الطبيعية متعددة اللغات لماذا تواجه العديد من منظمات التكنولوجيا المالية مشاكل تشغيلية عند تطبيق اكتشاف متعدد اللغات الجاهز على سير عمل KYC.

الحل الهجين لـ KYC عالي الحجم

بالنسبة لعمليات KYC التي تعالج كميات كبيرة من مستندات الهوية عبر ولايات الاتحاد الأوروبي المتعددة، فإن مشكلة الإيجابيات الكاذبة قابلة للحل من خلال خيارات معمارية:

تعبير منتظم لمعرفات هيكلية مع تحقق من صحة المجموع: أرقام الهوية الوطنية (مثل Steuer-ID الألمانية، BSN الهولندية، PESEL البولندية، إلخ) لديها خوارزميات تحقق حتمية. يؤدي الاكتشاف القائم على التنسيق + تحقق من صحة المجموع إلى معدلات إيجابيات كاذبة قريبة من الصفر لهذه المعرفات - رقم مرجع لا يمر عبر خوارزمية تحقق المجموع للهوية الوطنية ليس هوية وطنية، بغض النظر عن طوله الرقمي.

معالجة اللغة الطبيعية الواعية بالسياق للأسماء والمعلومات الشخصية النصية الحرة: تظهر أسماء الأشخاص في مستندات الهوية في سياقات قابلة للتنبؤ ("الاسم:", "اللقب:", حقول نموذج محددة). تقلل متطلبات الكلمات السياقية لاكتشافات معالجة اللغة الطبيعية من الإيجابيات الكاذبة الناتجة عن سلاسل تشبه الأسماء التي تظهر في سياقات غير أسماء (أسماء المؤسسات، تسميات المرجع).

تكوين العتبات حسب نوع المستند: تحتوي مستندات KYC على توزيعات مختلفة من المعلومات الشخصية مقارنة برسائل الدعم الفني أو الملاحظات السريرية. يسمح تكوين عتبات الاكتشاف بشكل منفصل لأنواع المستندات - دقة أعلى لمعالجة KYC عالية الحجم، واسترجاع أعلى لإزالة الهوية السريرية - بالتعديل وفقًا للاحتياجات التشغيلية بدلاً من قبول إعداد افتراضي يناسب الجميع.

مشكلة التراكم ليست تكلفة لأتمتة المعلومات الشخصية. إنها تكلفة استخدام أدوات غير مهيأة لمتطلبات التشغيل لـ KYC متعدد اللغات عالي الحجم.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.