KYC'nin Rekabet Eden Uyumluluk Gereksinimleri
Müşterinizi Tanıyın (KYC) uyumluluğu, fintech operasyonlarında belirli bir gerilim yaratır: düzenleyiciler, kimlik doğrulaması için kapsamlı bir süreç gerektirirken — kişisel belgelerin toplanması ve doğrulanması — veri koruma düzenlemeleri, toplandıktan sonra bu kişisel verilerin en aza indirilmesini ve korunmasını gerektirir.
Yeni bir hesap başvurusunda bulunan bir dijital banka, kimlik belgeleri (ulusal kimlik kartları, pasaportlar, sürücü belgeleri), adres kanıtı ve finansal doğrulama belgeleri toplar. Bu belgeler, GDPR, AML düzenlemeleri ve bankacılık denetim otoriteleri tarafından en sıkı veri koruma önlemleriyle işlenmesi gereken kişisel verilerin yüksek yoğunluklarını içerir.
Toplanan veriler analiz için kullanıldığında, dolandırıcılık tespit sistemleriyle paylaşıldığında veya ML model eğitimi için işlendiğinde, GDPR'nın veri minimizasyonu ve amaç sınırlaması ilkeleri, kişisel verilerin ikincil süreçlerde kullanılmadan önce anonimleştirilmesi veya takma adlandırılması gerektiğini gerektirir.
2 Günlük Birikim Sorunu
15 Avrupa ülkesinde günde 5,000 KYC başvurusu işleyen bir dijital bankacılık platformu, PII tespit adımında belirli bir operasyonel sorunla karşılaştı: otomatik tespit sistemlerindeki yanlış pozitif oranı, 2 günlük bir birikime yol açan inceleme kuyrukları oluşturuyordu.
Birikimin kaynağı: ML tabanlı PII tespit aracı, KYC belgelerindeki yaklaşık %8 oranında PII olmayan metni potansiyel kişisel veri olarak işaretliyordu. Günde 5,000 başvuru ile, her başvuru birden fazla belge içeriyor ve toplamda onlarca sayfaya ulaşıyordu, yanlış pozitif hacmi uyum ekibinin aynı iş günü içinde gözden geçirebileceği miktarı aşıyordu.
Yanlış pozitifler sistematik ve tahmin edilebilirdi:
- Adres belgelerindeki şirket isimleri, kişi isimleri olarak işaretleniyordu (ML modelinin isim tanıyıcısı özel isimleri karıştırıyordu)
- Referans numaraları ve başvuru kodları potansiyel kimlik numaraları olarak işaretleniyordu (kontrol toplamı doğrulaması olmadan sayısal desen eşleştirme)
- Kurum isimlerinde yer alan "Chase" ve benzeri yaygın isimler, kişi adı PII olarak işaretleniyordu
Her yanlış pozitif, onaylamak veya reddetmek için insan incelemesi gerektiriyordu. Günde 5,000 başvuru üzerinden %8 yanlış pozitif oranı, otomatikleştirilemeyecek binlerce günlük inceleme görevine dönüştü.
ACL Araştırmasının Gösterdiği
ACL 2024 araştırması, PII tespiti için çok dilli NLP modellerini değerlendirerek, yalnızca %5'inin çok dilli NLP modellerinin 24 AB dilinde İngilizce dışı PII tespitinde %85'ten daha iyi F1 puanı elde ettiğini buldu.
F1 puanı, kesinlik ve hatırlama oranını birleştirir — yüksek hatırlama oranına sahip ama düşük kesinlikte (birçok yanlış pozitif) bir model kötü puan alır, tıpkı yüksek kesinlikte ama düşük hatırlama oranına sahip (birçok yanlış negatif) bir model gibi. Tüm 24 AB dilinde %85 F1'e ulaşmadaki %95'lik başarısızlık oranı, tam AB dil setinde hem doğru hem de kapsamlı bir model oluşturmanın zorluğunu yansıtır.
Karşılaştırma için, XLM-RoBERTa, PII tespit görevleri için %91.4 çapraz-dil F1 elde etmektedir, HuggingFace 2024 kıyaslamasına göre. %91.4 ile çok dilli NLP modellerinin medyan performansı arasındaki fark, birçok fintech organizasyonunun KYC iş akışlarına hazır çok dilli tespiti uygularken operasyonel sorunlarla karşılaşmasının nedenini açıklar.
Yüksek Hacimli KYC için Hibrit Çözüm
Birden fazla AB yargı alanında yüksek hacimli kimlik belgelerini işleyen KYC operasyonları için, yanlış pozitif sorunu mimari seçimlerle çözülebilir:
Kontrol toplamı doğrulaması ile yapılandırılmış tanımlayıcı regex: Ulusal kimlik numaraları (Alman Steuer-ID, Hollanda BSN, Polonya PESEL vb.) belirleyici doğrulama algoritmalarına sahiptir. Format + kontrol toplamı doğrulamasına dayalı tespit, bu tanımlayıcılar için neredeyse sıfır yanlış pozitif oranları üretir — ulusal kimlik kontrol toplamı algoritmasını geçmeyen bir referans numarası, sayısal uzunluğuna bakılmaksızın ulusal kimlik değildir.
İsimler ve serbest metin PII için bağlam farkındalığına sahip NLP: Kimlik belgelerindeki kişi isimleri, tahmin edilebilir bağlamlarda görünür ("Ad:", "Soyad:", belirli form alanları). NLP tespitleri için bağlam kelime gereksinimleri, isim benzeri dizelerin isim olmayan bağlamlarda (kurum isimleri, referans etiketleri) görünmesini azaltır.
Belge türüne göre eşik yapılandırması: KYC belgeleri, müşteri destek e-postaları veya klinik notlardan farklı PII dağılımlarına sahiptir. Belge türleri için tespit eşiklerini ayrı ayrı yapılandırmak — yüksek hacimli KYC işleme için daha yüksek kesinlik, klinik kimlik gizleme için daha yüksek hatırlama — operasyonel gereksinimlere göre ayar yapılmasına olanak tanır; bu, tek tip bir varsayılan kabul etmek yerine.
Birikim sorunu, PII otomasyonunun bir maliyeti değildir. Yüksek hacimli çok dilli KYC'nin operasyonel gereksinimleri için yapılandırılmamış araçların bir maliyetidir.
Kaynaklar: