Các Quy Tắc Cạnh Tranh Của KYC
Các quy tắc Định Danh Khách Hàng (KYC) tạo ra căng thẳng thực sự cho các công ty fintech. Cơ quan quản lý muốn kiểm tra danh tính kỹ lưỡng. Họ yêu cầu các công ty thu thập và xác minh tài liệu cá nhân. Nhưng luật dữ liệu đẩy ngược lại. Họ yêu cầu các công ty tối thiểu hóa dữ liệu đó sau khi được thu thập.
Một ngân hàng mở tài khoản mới thu thập nhiều tài liệu. Bao gồm chứng minh nhân dân quốc gia, hộ chiếu và bằng lái xe. Cũng thu thập bằng chứng địa chỉ và giấy tờ tài chính. Những tài liệu này chứa đầy dữ liệu cá nhân. GDPR, các quy tắc AML và cơ quan giám sát ngân hàng đều yêu cầu xử lý nghiêm ngặt.
Khi dữ liệu đó chuyển đến hệ thống gian lận hay phân tích, các quy tắc bổ sung áp dụng. Các quy tắc dữ liệu GDPR có hiệu lực. Dữ liệu cá nhân phải được che giấu hoặc khử định danh trước bất kỳ lần sử dụng thứ hai nào.
Vấn Đề Tồn Đọng 2 Ngày
Một ngân hàng kỹ thuật số xử lý 5.000 đơn KYC mỗi ngày trên 15 quốc gia EU. Bước quét PII của họ gây ra vấn đề nghiêm trọng. Tỷ lệ dương tính giả quá cao. Hàng chờ xem xét tăng cho đến khi đạt tồn đọng 2 ngày.
Nguyên nhân gốc rễ rõ ràng. Công cụ dựa trên ML của họ gắn cờ khoảng 8% văn bản không phải PII là dữ liệu cá nhân. Mỗi tài liệu có nhiều trang. Khối lượng dương tính giả hàng ngày quá lớn để nhóm có thể xử lý trong một ngày. Họ tiếp tục tụt hậu.
Các dương tính giả thuộc ba nhóm:
- Tên công ty bị gắn cờ là tên người (mô hình nhầm lẫn danh từ riêng)
- Mã tham chiếu bị gắn cờ là số ID (không dùng kiểm tra checksum)
- Tên phổ biến như "Chase" trong tên ngân hàng bị gắn cờ là PII tên người
Mỗi dương tính giả cần xem xét thủ công. Ở mức 8% trên 5.000 tài liệu mỗi ngày, điều này tạo ra hàng nghìn nhiệm vụ hàng ngày. Không có nhiệm vụ nào có thể tự động hóa.
Nghiên Cứu ACL Cho Thấy Gì
Nghiên cứu ACL 2024 kiểm tra các mô hình NLP đa ngôn ngữ để phát hiện PII. Kết quả rõ ràng. Chỉ 5% mô hình NLP đa ngôn ngữ đạt F1-score tốt hơn 85% cho PII không phải tiếng Anh trên tất cả 24 ngôn ngữ EU.
F1-score kết hợp độ chính xác và recall. Độ chính xác thấp có nghĩa là nhiều dương tính giả. Recall thấp có nghĩa là nhiều mục bị bỏ sót. Cả hai kết quả đều có điểm kém. Tỷ lệ thất bại 95% để đạt F1 85% cho thấy quét PII đa ngôn ngữ khó đến mức nào trong thực tế.
Ngược lại, XLM-RoBERTa đạt F1 đa ngôn ngữ 91,4% cho các tác vụ PII. Con số này từ benchmarking HuggingFace 2024. Khoảng cách giữa 91,4% và mô hình trung bình giải thích tại sao các công cụ thông thường thất bại trong KYC đa ngôn ngữ.
Thiết Kế Lai Cho KYC Khối Lượng Lớn
Vấn đề dương tính giả có thể giải quyết được. Ba lựa chọn thiết kế khắc phục nó.
Regex với kiểm tra checksum: Số ID quốc gia có quy tắc cố định. Steuer-ID Đức, BSN Hà Lan và PESEL Ba Lan đều dùng toán học checksum. Nếu một số không qua kiểm tra checksum, nó không phải ID quốc gia. Định dạng cộng checksum tạo ra gần như không có dương tính giả cho các ID này.
NLP nhận thức ngữ cảnh cho tên: Tên người trong tài liệu KYC xuất hiện ở những vị trí đã biết. Bao gồm "Tên:", "Họ:" và các trường biểu mẫu cố định. Yêu cầu từ ngữ cảnh trước khi gắn cờ tên giúp giảm dương tính giả. Nó ngăn tên công ty kích hoạt cảnh báo tên người.
Điều chỉnh ngưỡng theo loại tài liệu: Tài liệu KYC khác với email hỗ trợ hay ghi chú y tế. Mỗi loại có hỗn hợp PII khác nhau. Đặt ngưỡng theo loại tài liệu cho phép nhóm điều chỉnh theo nhu cầu. KYC khối lượng lớn được độ chính xác cao hơn. Khử định danh y tế được recall cao hơn.
Tồn đọng 2 ngày không phải chi phí không thể tránh của quét PII. Đó là chi phí của việc dùng công cụ chung cho một quy trình cụ thể. Giải pháp là cấu hình, không phải đội ngũ lớn hơn.
Hướng dẫn tuân thủ GDPR bao gồm các quy tắc tối thiểu hóa dữ liệu. Tổng quan bảo mật và tuân thủ giải thích các kiểm soát kỹ thuật hỗ trợ quy trình KYC tuân thủ.