Nasprotujoca si pravila KYC
Pravila Spoznaj svojega stranko (KYC) ustvarjajo pravo napetost za podjetja fintech. Regulatorji zelijo temeljite preveritve identitete. Zahtevajo, da podjetja zbirajo in preverjajo osebne dokumente. Toda zakoni o podatkih potiskajo v nasprotno smer. Zahtevajo, da podjetja minimizirajo te podatke, ko so enkrat zbrani.
Banka, ki odpira novi racun, zbere mnogo dokumentov. Ti vkljucujejo nacionalne osebne izkaznice, potne liste in vozniška dovoljenja. Vkljucuje tudi dokazila o stalnem bivaliscu in financne dokumente. Te datoteke vsebujejo gosto osebnih podatkov. GDPR, pravila AML in bancni nadzorniki zahtevajo strogo ravnanje.
Ko ti podatki gredo v sisteme za prevar ali analitiko, veljajo dodatna pravila. Aktivirajo se pravila o podatkih GDPR. Osebni podatki morajo biti maskirani ali de-identificirani pred kakrsnokoli sekundarno uporabo.
Problem 2-dnevnega zaostanka
Digitalna banka je dnevno obdelovala 5.000 zahtev KYC v 15 drzavah EU. Njihov korak skeniranja PII je povzrocil resen problem. Stopnja lazno pozitivnih primerov je bila previsoka. Cakalne vrste za pregled so rasle, dokler niso dosgle 2-dnevni zaostanke.
Temeljni vzrok je bil jasen. Njihovo orodje, ki temelji na ML, je oznacilo priblizno 8 % ne-PII besedila kot osebne podatke. Vsaka datoteka je imela mnogo strani. Dnevna kolicina lazno pozitivnih primerov je bila prevelika, da bi jo ekipa pocrpala v enem dnevu. Ostajali so za.
Lazno pozitivni primeri so spadali v tri skupine:
- Imena podjetij oznacena kot osebna imena (model je zamesал lastna samostalnike)
- ReferenCne kode oznacene kot stevilke ID (ni bila uporabljena preveritev kontrolne vsote)
- Pogosta imena kot 'Chase' v imenih bank oznacena kot PII z osebnim imenom
Vsak lazno pozitivni primer je zahteval clovesko pregledovanje. Pri 8 % iz 5.000 dnevnih datotek je to ustvarilo tisocе dnevnih nalog. Nobene ni bilo mogoce avtomatizirati.
Kaj kaze research ACL
Research ACL 2024 je testiral vecjezicne modele NLP za zaznavanje PII. Ugotovitev je bila jasna. Le 5 % vecjezicnih modelov NLP doseze F1-oceno boljso od 85 % za ne-angleski PII v vseh 24 jezikih EU.
F1-ocena zdruzuje natancnost in priklic. Nizka natancnost pomeni mnogo lazno pozitivnih primerov. Nizek priklic pomeni mnogo zamujenih elementov. Oba izida dosezeta slabe rezultate. Stopnja neuspeha 95 % pri doseganju 85 % F1 pokazе, kako tezko je vecjezicno skeniranje PII v praksi.
Nasprotno XLM-RoBERTa dosega 91,4 % medjezicni F1 za naloge PII. Ta stevilka je iz meritve HuggingFace 2024. Vrzel med 91,4 % in medianskim modelom pojasni, zakaj orodja iz polici odpovedo pri vecjezicnem KYC.
Hibridna zasnova za visoko-obsezni KYC
Problem lazno pozitivnih primerov je resljiv. Tri zasnOvne izbire ga odpravijo.
Regularni izrazi s preverjevanjem kontrolne vsote: Stevilke nacionalnih izkaznic imajo fiksna pravila. Nemški Steuer-ID, nizozemski BSN in poljski PESEL vsak uporabljajo matematiko kontrolne vsote. Ce stevilka ne ustreza kontrolni vsoti, ni nacionalna izkaznica. Format plus kontrolna vsota da skoraj nic lazno pozitivnih primerov za te izkaznice.
Kontekstno zavedni NLP za imena: Osebna imena v datotekah KYC se pojavljajo na znanih mestih. Ta vkljucujejo 'Ime:', 'Priimek:' in dolocena polja obrazcev. Zahtevanje kontekstne besede pred oznacevanjem imena zmanjsa lazno pozitivne primere. Prepreci, da bi imena podjetij sprozila opozorila za osebno ime.
Prilagajanje pragov po vrsti datoteke: Datoteke KYC se razlikujejo od supportnih e-postnih sporocil ali medicinskih opomb. Vsaka vrsta ima drugacno mesanico PII. Nastavitev pragov po vrsti datoteke ekipam omogoci prilagajanje njihovim potrebam. Visoko-obsezni KYC dobi visjo natancnost. Medicinska de-identifikacija dobi visji priklic.
2-dnevni zaostanек ni neizogibni strosek skeniranja PII. Je strosek uporabe genericnih orodij na specificnem delovnem toku. Resitev je nastavitev, ne vecja ekipa.
Nas vodnik o skladnosti GDPR pokriva pravila o minimizaciji podatkov. Nas pregled varnosti in skladnosti pojasnjuje tehnicne kontrole, ki podpirajo skladen delovni tok KYC.