กฎที่แข่งขันกันของ KYC
กฎ Know Your Customer (KYC) สร้างความตึงเครียดที่แท้จริงสำหรับบริษัท fintech ผู้กำกับดูแลต้องการการตรวจสอบตัวตนอย่างละเอียด พวกเขากำหนดให้บริษัทเก็บรวบรวมและตรวจสอบเอกสารส่วนบุคคล แต่กฎหมายข้อมูลผลักดันไปในทิศทางตรงกันข้าม กำหนดให้บริษัทลดข้อมูลนั้นลงเมื่อเก็บรวบรวมแล้ว
ธนาคารที่เปิดบัญชีใหม่เก็บรวบรวมเอกสารหลายรายการ ได้แก่ บัตรประจำตัวประชาชน หนังสือเดินทาง และใบขับขี่ รวมถึงหลักฐานที่อยู่และเอกสารทางการเงิน ไฟล์เหล่านี้มีข้อมูลส่วนบุคคลที่หนาแน่น GDPR กฎ AML และหน่วยงานกำกับดูแลการธนาคารต่างกำหนดการจัดการที่เข้มงวด
เมื่อข้อมูลนั้นย้ายไปยังระบบตรวจจับการฉ้อโกงหรือการวิเคราะห์ กฎเพิ่มเติมจะบังคับใช้ กฎข้อมูลของ GDPR เริ่มทำงาน ข้อมูลส่วนบุคคลต้องถูกปิดบังหรือทำให้ไม่ระบุตัวตนก่อนการใช้งานครั้งที่สอง
ปัญหาคิวงานค้างสองวัน
ธนาคารดิจิทัลประมวลผล ใบสมัคร KYC 5,000 รายการต่อวัน ใน 15 ประเทศ EU ขั้นตอนการสแกน PII ของพวกเขาทำให้เกิดปัญหาร้ายแรง อัตราผลบวกลวงสูงเกินไป คิวตรวจสอบเพิ่มขึ้นจนถึงคิวงานค้างสองวัน
สาเหตุหลักชัดเจน เครื่องมือ ML ของพวกเขาตั้งค่าสถานะข้อความที่ไม่ใช่ PII ประมาณ 8% ว่าเป็นข้อมูลส่วนบุคคล แต่ละไฟล์มีหลายหน้า ปริมาณผลบวกลวงรายวันมากเกินกว่าทีมจะล้างได้ในหนึ่งวัน พวกเขาตามไม่ทัน
ผลบวกลวงแบ่งออกเป็นสามกลุ่ม:
- ชื่อบริษัทที่ถูกตั้งค่าสถานะเป็นชื่อบุคคล (โมเดลสับสนกับคำนามเฉพาะ)
- รหัสอ้างอิงที่ถูกตั้งค่าสถานะเป็นหมายเลข ID (ไม่มีการตรวจสอบ checksum)
- ชื่อแรกที่พบบ่อยอย่าง "Chase" ในชื่อธนาคารที่ถูกตั้งค่าสถานะเป็น PII ชื่อบุคคล
แต่ละผลบวกลวงต้องการการตรวจสอบโดยมนุษย์ ที่ 8% ใน 5,000 ไฟล์ต่อวัน สิ่งนี้สร้างงานหลายพันรายการต่อวัน ไม่มีงานใดที่สามารถทำให้เป็นอัตโนมัติได้
สิ่งที่การวิจัย ACL แสดงให้เห็น
การวิจัย ACL 2024 ทดสอบโมเดล NLP หลายภาษาสำหรับการตรวจจับ PII ผลการค้นพบนั้นชัดเจน มีเพียง 5% ของโมเดล NLP หลายภาษาที่ทำคะแนน F1-score ได้ดีกว่า 85% สำหรับ PII ที่ไม่ใช่ภาษาอังกฤษ ใน 24 ภาษา EU ทั้งหมด
F1-score รวมความแม่นยำและ recall เข้าด้วยกัน ความแม่นยำต่ำหมายถึงผลบวกลวงจำนวนมาก recall ต่ำหมายถึงรายการที่พลาดจำนวนมาก ผลลัพธ์ทั้งสองอย่างได้คะแนนต่ำ อัตราความล้มเหลว 95% ที่จะถึง F1 85% แสดงให้เห็นว่าการสแกน PII ข้ามภาษานั้นยากเพียงใดในทางปฏิบัติ
ในทางตรงกันข้าม XLM-RoBERTa บรรลุ F1 ข้ามภาษา 91.4% สำหรับงาน PII ตัวเลขนี้มาจากการวัดประสิทธิภาพของ HuggingFace 2024 ช่องว่างระหว่าง 91.4% กับโมเดลเฉลี่ยอธิบายว่าเหตุใดเครื่องมือทั่วไปจึงล้มเหลวใน KYC หลายภาษา
การออกแบบแบบไฮบริดสำหรับ KYC ปริมาณสูง
ปัญหาผลบวกลวงแก้ไขได้ การเลือกออกแบบสามอย่างสามารถแก้ไขได้
Regex พร้อมการตรวจสอบ checksum: หมายเลข ID ประจำชาติมีกฎที่กำหนดไว้ Steuer-ID ของเยอรมัน, BSN ของดัตช์ และ PESEL ของโปแลนด์ต่างใช้คณิตศาสตร์ checksum หากตัวเลขล้มเหลวใน checksum ก็ไม่ใช่ ID ประจำชาติ รูปแบบบวก checksum ผลิตผลบวกลวงใกล้ศูนย์สำหรับ ID เหล่านี้
NLP ที่รับรู้บริบทสำหรับชื่อ: ชื่อบุคคลในไฟล์ KYC ปรากฏในตำแหน่งที่รู้จัก ได้แก่ "ชื่อ:", "นามสกุล:" และช่องแบบฟอร์มที่กำหนดไว้ การกำหนดให้มีคำบริบทก่อนตั้งค่าสถานะชื่อจะลดผลบวกลวง หยุดชื่อบริษัทไม่ให้ทริกเกอร์การแจ้งเตือนชื่อบุคคล
การปรับ threshold ตามประเภทไฟล์: ไฟล์ KYC แตกต่างจากอีเมลสนับสนุนหรือบันทึกทางการแพทย์ แต่ละประเภทมีส่วนผสม PII ที่แตกต่างกัน การตั้ง threshold ตามประเภทไฟล์ช่วยให้ทีมสามารถปรับแต่งตามความต้องการ KYC ปริมาณสูงได้รับความแม่นยำสูงขึ้น การทำให้ไม่ระบุตัวตนทางการแพทย์ได้รับ recall สูงขึ้น
คิวงานค้างสองวันไม่ใช่ค่าใช้จ่ายที่หลีกเลี่ยงไม่ได้ของการสแกน PII แต่เป็นค่าใช้จ่ายของการใช้เครื่องมือทั่วไปกับเวิร์กโฟลว์เฉพาะ การแก้ไขคือการตั้งค่า ไม่ใช่ทีมงานที่ใหญ่ขึ้น
คู่มือการปฏิบัติตาม GDPR ของเราครอบคลุมกฎการลดข้อมูล ภาพรวมความปลอดภัยและการปฏิบัติตาม ของเราอธิบายการควบคุมทางเทคนิคที่สนับสนุนเวิร์กโฟลว์ KYC ที่เป็นไปตามข้อกำหนด