Suprotstavljeni zahtjevi KYC-a
Pravila Upoznaj svog klijenta (KYC) stvaraju pravu napetost za fintech tvrtke. Regulatori zele temeljite provjere identiteta. Zahtijevaju od tvrtki prikupljanje i provjeru osobnih dokumenata. Ali zakoni o zastitit podataka guraju u suprotnom smjeru. Zahtijevaju od tvrtki minimiziranje tih podataka nakon sto se prikupe.
Banka koja otvara novi racun prikuplja mnoge dokumente. To ukljucuje nacionalne osobne iskaznice, putovnice i vozacke dozvole. Takodjer prikuplja dokaze o adresi i financijske dokumente. Ove datoteke sadrze gusto osobne podatke. GDPR, AML pravila i bankarski nadzornici zahtijevaju strogo rukovanje.
Kada ti podaci prelaze u sustave za prijevare ili analitiku, primjenjuju se dodatna pravila. GDPR-ova pravila o podacima stupaju na snagu. Osobni podaci moraju biti maskirani ili deidentificirani prije svake sekundarne upotrebe.
Problem zaostatka od 2 dana
Digitalna banka obradila je 5.000 KYC zahtjeva dnevno u 15 EU zemalja. Korak PII skeniranja uzrokovao je ozbiljan problem. Stopa laznih pozitivnih rezultata bila je previsoka. Redovi za pregled rasli su dok nisu dostigli zaostatak od 2 dana.
Temeljni uzrok bio je jasan. Njihov ML alat oznacavao je otprilike 8% teksta koji nije PII kao osobne podatke. Svaka datoteka imala je mnogo stranica. Dnevni obujam laznih pozitivnih bio je prevelik za tim da ga ocisti u jednom danu. Stalno su zaostajali.
Lazni pozitivni rezultati podijeljeni su u tri grupe:
- Nazivi tvrtki oznaceni kao osobna imena (model je pomijesao vlastite imenice)
- Referentni kodovi oznaceni kao ID brojevi (provjera kontrolnog zbroja nije koristena)
- Uobicajena imena poput "Chase" u nazivima banaka oznacena kao PII osobnog imena
Svaki lazni pozitivni zahtijevao je ljudski pregled. Pri 8% u 5.000 dnevnih datoteka, ovo je produciralo tisuce dnevnih zadataka. Niti jedan nije mogao biti automatiziran.
Sto pokazuje ACL istrazivanje
ACL 2024 istrazivanje testiralo je visejezicne NLP modele za detekciju PII. Nalaz je bio jasna. Samo 5% visejezicnih NLP modela postize bolje od 85% F1 ocjene za PII koji nije na engleskom na svim 24 EU jezika.
F1 ocjena kombinira preciznost i odziv. Niska preciznost znaci mnogo laznih pozitivnih. Nizak odziv znaci mnogo promasenih stavki. Oba ishoda imaju lose ocjene. Stopa neuspjeha od 95% za postizanje 85% F1 pokazuje koliko je tesko u praksi krizajezicno PII skeniranje.
Nasuprot tome, XLM-RoBERTa postize 91,4% krizajezicne F1 za PII zadatke. Ova se ocjena temelji na HuggingFace benchmarkingu za 2024. Jaz izmedju 91,4% i medijanskog modela objasnjava zasto gotovi alati ne uspijevaju u visejezicnom KYC-u.
Hibridni dizajn za KYC visokog volumena
Problem laznih pozitivnih rjesiv je. Tri dizajnerske opcije ga rjesavaju.
Regularni izrazi s provjerom kontrolnog zbroja: Nacionalni ID brojevi imaju fiksna pravila. Njemacki Steuer-ID, nizozemski BSN i poljski PESEL svaki koriste matematiku kontrolnog zbroja. Ako broj ne prolazi provjeru kontrolnog zbroja, nije to nacionalni ID. Format plus kontrolni zbroj producira gotovo nultu stopu laznih pozitivnih za ove ID-ove.
Kontekstualno svjesni NLP za imena: Osobna imena u KYC datotekama pojavljuju se na poznatim mjestima. To ukljucuje polja "Ime:", "Prezime:" i unaprijed definirana polja obrasca. Zahtijevanje kontekstualne rijeci prije oznacavanja imena smanjuje lazne pozitivne. Sprjecava da nazivi tvrtki aktiviraju upozorenja za osobna imena.
Ugadjanje praga po vrsti datoteke: KYC datoteke razlikuju se od e-mailova za podrsku ili medicinskih biljezki. Svaka vrsta ima drugaciji miks PII. Postavljanje pragova po vrsti datoteke omogucuje timovima ugadjanje za njihove potrebe. KYC visokog volumena dobiva vecu preciznost. Medicinska deidentifikacija dobiva veci odziv.
Zaostatak od 2 dana nije neizbjezan trosak PII skeniranja. To je trosak koristenja generickih alata na specificnom radnom tijeku. Rjesenje je konfiguracija, ne veci tim.
Nas vodic za uskladjenost s GDPR-om pokriva pravila minimiziranja podataka. Nas pregled sigurnosti i uskladjenosti objasnjava tehnicke kontrole koje podrzavaju uskladjene KYC radne tijekove.