KYC konkuruojančios taisyklės
Kliento pažinimo (KYC) taisyklės sukuria tikrą įtampą finansinių technologijų įmonėms. Reguliuotojai nori išsamių tapatybės patikrinimų. Jie reikalauja, kad įmonės rinktų ir tikrintų asmens dokumentus. Tačiau duomenų įstatymai stumia kita kryptimi. Jie reikalauja, kad įmonės, surinkusios duomenis, juos kuo labiau sumažintų.
Bankas, atidarantis naują sąskaitą, renka daug dokumentų. Tai apima nacionalinius ID korteles, pasus ir vairuotojo pažymėjimus. Taip pat renkamas adresas ir finansiniai dokumentai. Šiuose failuose yra daug asmens duomenų. BDAR, kovos su pinigų plovimu taisyklės ir bankų priežiūros institucijos reikalauja griežto tvarkymo.
Kai tie duomenys perduodami į sukčiavimo sistemas ar analizei, taikomos papildomos taisyklės. Įsigalioja BDAR duomenų taisyklės. Asmens duomenys turi būti paslėpti arba de-identifikuoti prieš bet kokį antrinį naudojimą.
2 dienų vėlavimo problema
Skaitmeninis bankas kasdien apdorojo 5 000 KYC paraiškų 15 ES šalių. Jų asmens duomenų nuskaitymo žingsnis sukėlė rimtą problemą. Klaidingų teigiamų dažnis buvo per didelis. Peržiūros eilės išaugo iki 2 dienų vėlavimo.
Pagrindinė priežastis buvo aiški. Jų ML pagrįstas įrankis pažymėdavo apie 8 % ne asmens duomenų teksto kaip asmeninę informaciją. Kiekvienas failas turėjo daug puslapių. Dienos klaidingų teigiamų kiekis buvo per didelis komandai, kad ji galėtų jį išvalyti per vieną dieną. Jie nuolat atsilikdavo.
Klaidingi teigiami suskirstyti į tris grupes:
- Įmonių pavadinimai pažymėti kaip asmenų vardai (modelis painiojo tikrinius daiktavardžius)
- Nuorodos kodai pažymėti kaip ID numeriai (nenaudotas kontrolinės sumos tikrinimas)
- Įprasti vardai, tokie kaip "Chase" banko pavadinimuose, pažymėti kaip asmens vardo asmens duomenys
Kiekvienas klaidingas teigiamas reikalavo žmogaus peržiūros. Esant 8 % iš 5 000 dienos failų, tai generavo tūkstančius dienos užduočių. Nė viena negalėjo būti automatiškai pašalinta.
Ką rodo ACL tyrimas
ACL 2024 m. tyrimas bandė daugiakalbius NLP modelius asmens duomenų aptikimui. Išvada buvo ryški. Tik 5 % daugiakalbių NLP modelių pasiekia geriau nei 85 % F1 balą ne anglų kalbos asmens duomenims visose 24 ES kalbose.
F1 balas apjungia tikslumą ir atkūrimą. Žemas tikslumas reiškia daug klaidingų teigiamų. Žemas atkūrimas reiškia daug praleistų elementų. Abu rezultatai vertinami prastai. 95 % nepavykimų pasiekti 85 % F1 rodo, koks sudėtingas daugiakalbis asmens duomenų nuskaitymas yra praktiškai.
Palyginimui, XLM-RoBERTa pasiekia 91,4 % tarpkalbinį F1 asmens duomenų užduotims. Šis skaičius yra iš HuggingFace 2024 m. lyginamojo testavimo. Skirtumas tarp 91,4 % ir medianos modelio paaiškina, kodėl paruošti naudoti įrankiai neveikia daugiakalbiam KYC.
Hibridinis projektavimas didelio masto KYC
Klaidingų teigiamų problema yra išsprendžiama. Trys projektavimo pasirinkimai ją išsprendžia.
Reguliariosios išraiškos su kontrolinės sumos tikrinimu: Nacionaliniai ID numeriai turi fiksuotas taisykles. Vokietijos Steuer-ID, Nyderlandų BSN ir Lenkijos PESEL kiekvienas naudoja kontrolinės sumos matematiką. Jei numeris nepatenka kontrolinę sumą, jis nėra nacionalinis ID. Formatas kartu su kontroline suma duoda beveik nulinį klaidingų teigiamų skaičių šiems ID.
Kontekstui jautrus NLP vardams: Asmenų vardai KYC failuose pasirodo žinomose vietose. Tai apima "Vardas:", "Pavardė:" ir nustatytos formos laukus. Reikalaujant kontekstinio žodžio prieš vardo pažymėjimą, sumažėja klaidingi teigiami. Tai sustabdo įmonių pavadinimus nuo asmens vardo įspėjimų aktyvavimo.
Ribos derinimas pagal failo tipą: KYC failai skiriasi nuo palaikymo el. laiškų ar medicininių įrašų. Kiekvienas tipas turi skirtingą asmens duomenų mišinį. Nustatant ribas pagal failo tipą, komandos gali derinti pagal savo poreikius. Didelio masto KYC gauna didesnį tikslumą. Medicininė de-identifikacija gauna didesnį atkūrimą.
2 dienų vėlavimas nėra neišvengiama asmens duomenų nuskaitymo kaina. Tai yra bendrų įrankių naudojimo specifiniam darbo srautui kaina. Sprendimas yra sąranka, o ne didesnė komanda.
Mūsų BDAR atitikties vadovas apima duomenų minimizavimo taisykles. Mūsų saugumo ir atitikties apžvalga aiškina technines priemones, palaikančias atitinkamus KYC darbo srautus.