Aturan KYC yang Bertentangan
Aturan Kenali Pelanggan Anda (KYC) menciptakan ketegangan nyata bagi perusahaan fintech. Regulator menginginkan pemeriksaan identitas yang menyeluruh. Mereka mewajibkan perusahaan mengumpulkan dan memverifikasi dokumen pribadi. Namun undang-undang data mendorong ke arah sebaliknya. Mereka mewajibkan perusahaan meminimalkan data tersebut setelah dikumpulkan.
Bank yang membuka rekening baru mengumpulkan banyak dokumen. Ini termasuk kartu ID nasional, paspor, dan SIM. Juga termasuk bukti alamat dan dokumen keuangan. Berkas-berkas ini berisi data pribadi yang padat. GDPR, aturan AML, dan pengawas perbankan semuanya mensyaratkan penanganan yang ketat.
Ketika data itu berpindah ke sistem fraud atau analitik, aturan tambahan berlaku. Aturan data GDPR berlaku. Data pribadi harus disamarkan atau di-de-identifikasi sebelum penggunaan kedua apa pun.
Masalah Backlog 2 Hari
Sebuah bank digital memproses 5.000 aplikasi KYC harian di 15 negara EU. Langkah pemindaian PII mereka menimbulkan masalah serius. Tingkat positif palsu terlalu tinggi. Antrian tinjauan terus bertambah hingga mencapai backlog 2 hari.
Akar masalahnya jelas. Alat berbasis ML mereka menandai sekitar 8% teks non-PII sebagai data pribadi. Setiap berkas memiliki banyak halaman. Volume positif palsu harian terlalu besar untuk diselesaikan tim dalam satu hari. Mereka terus tertinggal.
Positif palsu terbagi dalam tiga kelompok:
- Nama perusahaan ditandai sebagai nama orang (model mengacaukan kata benda proper)
- Kode referensi ditandai sebagai nomor ID (tidak ada pemeriksaan checksum yang digunakan)
- Nama depan umum seperti "Chase" dalam nama bank ditandai sebagai PII nama orang
Setiap positif palsu memerlukan tinjauan manusia. Pada 8% dari 5.000 berkas harian, ini menghasilkan ribuan tugas harian. Tidak ada yang bisa diotomatisasi.
Apa yang Ditunjukkan Penelitian ACL
Penelitian ACL 2024 menguji model NLP multibahasa untuk deteksi PII. Temuannya sangat mencolok. Hanya 5% model NLP multibahasa yang mencapai F1-score lebih baik dari 85% untuk PII non-Inggris di semua 24 bahasa EU.
F1-score menggabungkan presisi dan recall. Presisi rendah berarti banyak positif palsu. Recall rendah berarti banyak yang terlewat. Tingkat kegagalan 95% untuk mencapai 85% F1 menunjukkan betapa sulitnya pemindaian PII lintas bahasa dalam praktiknya.
Sebaliknya, XLM-RoBERTa mencapai F1 lintas bahasa 91,4% untuk tugas PII. Angka ini dari benchmarking HuggingFace 2024. Kesenjangan antara 91,4% dan model median menjelaskan mengapa alat off-the-shelf gagal dalam KYC multibahasa.
Desain Hibrida untuk KYC Volume Tinggi
Masalah positif palsu bisa diselesaikan. Tiga pilihan desain memperbaikinya.
Regex dengan pemeriksaan checksum: Nomor ID nasional memiliki aturan tetap. Steuer-ID Jerman, BSN Belanda, dan PESEL Polandia masing-masing menggunakan matematika checksum. Jika sebuah angka gagal checksum, itu bukan ID nasional. Format ditambah checksum menghasilkan hampir nol positif palsu untuk ID-ID ini.
NLP sadar konteks untuk nama: Nama orang dalam berkas KYC muncul di tempat yang diketahui. Ini termasuk "Nama:", "Nama Belakang:", dan bidang formulir tertentu. Mewajibkan kata konteks sebelum menandai nama mengurangi positif palsu. Ini mencegah nama perusahaan memicu peringatan nama orang.
Penyetelan ambang per jenis berkas: Berkas KYC berbeda dari email dukungan atau catatan medis. Setiap jenis memiliki campuran PII yang berbeda. Menetapkan ambang per jenis berkas memungkinkan tim menyesuaikan sesuai kebutuhan. KYC volume tinggi mendapat presisi lebih tinggi. De-identifikasi medis mendapat recall lebih tinggi.
Backlog 2 hari bukan biaya yang tidak bisa dihindari dari pemindaian PII. Itu adalah biaya penggunaan alat generik pada alur kerja tertentu. Solusinya ada pada pengaturan, bukan penambahan tim.
Panduan kepatuhan GDPR kami mencakup aturan minimisasi data. Gambaran umum keamanan dan kepatuhan kami menjelaskan kontrol teknis yang mendukung alur kerja KYC yang patuh.