KYC konkureerivad reeglid
Kliendi tundmaõppimise (KYC) reeglid tekitavad fintech-ettevõtetele tegeliku pinge. Regulaatorid tahavad põhjalikke identiteedi kontrolle. Nad nõuavad ettevõtetelt isikudokumentide kogumist ja kontrollimist. Kuid andmeseadused suruvad teises suunas. Need nõuavad ettevõtetelt andmete minimeerimist pärast kogumist.
Konto avamisel kogub pank palju dokumente. Nende hulka kuuluvad rahvuslikud ID-kaardid, passid ja juhiload. Samuti aadressi tõendid ja finantspaberid. Need failid sisaldavad tihedat isiklikku teavet. GDPR, rahapesuvastased reeglid ja pangajärelevalve nõuavad kõik ranget käsitsemist.
Kui need andmed liiguvad pettussüsteemidesse või analüütikasse, kehtivad lisareeglid. GDPR andmereeglid rakenduvad. Isikuandmed tuleb maskeerida või de-identifitseerida enne igasugust teistkordset kasutust.
2-päevase mahajäämuse probleem
Digitaalne pank töötas läbi 5000 KYC-taotlust päevas 15 ELi riigis. Nende PII skaneerimise etapp põhjustas tõsise probleemi. Valepositiivsete määr oli liiga kõrge. Ülevaate järjekorrad kasvasid kuni 2-päevase mahajäämuseni.
Juurpõhjus oli selge. Nende ML-põhine tööriist märgistas umbes 8% mitte-PII tekstist isikuandmetena. Igal failil oli palju lehekülgi. Igapäevane valepositiivsete maht oli liiga suur, et meeskond saaks selle ühe päevaga ära katta. Nad jäid aina maha.
Valepositiivsed jagunesid kolme rühma:
- Ettevõtete nimed märgistati inimeste nimedena (mudel ajas pärisnimed segamini)
- Viitenumbrid märgistati ID-numbritena (kontrollsummat ei kontrollitud)
- Tavalised eesnimed nagu "Chase" pankade nimedes märgistati inimese nime PII-na
Iga valepositiivne vajas inimese ülevaatust. 8% 5000 päevasest failist tootis tuhandeid igapäevaseid ülesandeid. Ühtegi ei saanud automatiseerida.
Mida ACL uurimus näitab
ACL 2024 uurimus testis mitmekeelseid NLP-mudeleid PII tuvastamiseks. Leid oli karm. Ainult 5% mitmekeelsetest NLP-mudelitest saavutab parema kui 85% F1-skoori mitte-ingliskeelse PII jaoks kõigis 24 ELi keeles.
F1-skoor ühendab täpsuse ja meelistuse. Madal täpsus tähendab palju valepositiivseid. Madal meelistus tähendab palju vahele jäänud elemente. Mõlemad tulemused saavad halva skoori. 95% ebaõnnestumise määr 85% F1 saavutamiseks näitab, kui raske on ristkeelne PII skaneerimine praktikas.
Võrdluseks: XLM-RoBERTa saavutab 91,4% ristkeelse F1 PII ülesannete jaoks. See number pärineb HuggingFace 2024 võrdlusuuringust. Lünk 91,4% ja keskmise mudeli vahel selgitab, miks valmistööriistad mitmekeelses KYC-s ebaõnnestuvad.
Hübriidkujundus suure mahu KYC jaoks
Valepositiivsete probleem on lahendatav. Kolm disainivalikut parandavad seda.
Regex kontrollsumma kontrollimisega: rahvuslikel ID-numbritel on fikseeritud reeglid. Saksa Steuer-ID, Hollandi BSN ja Poola PESEL kasutavad kõik kontrollsumma matemaatikat. Kui number ei läbi kontrollsummat, ei ole see rahvuslik ID. Vorming koos kontrollsummaga annab peaaegu null valepositiivseid nende ID-de puhul.
Konteksti arvestav NLP nimede jaoks: inimeste nimed KYC-failides esinevad teadaolevates kohtades. Nende hulka kuuluvad "Nimi:", "Perekonnanimi:" ja kindlad vormivälid. Nõudes kontekstsõna enne nime märgistamist, vähenevad valepositiivsed. See takistab ettevõtete nimede märgistamist inimeste nimede hoiatustena.
Läve häälestus failitüübi järgi: KYC-failid erinevad tugimeilitest või meditsiinilistest märkustest. Igal tüübil on erinev PII-segu. Läve seadistamine failitüübi järgi võimaldab meeskondadel häälestada vastavalt vajadustele. Suure mahuga KYC saab suurema täpsuse. Meditsiiniline de-identifitseerimine saab suurema meelistuse.
2-päevane mahajäämus ei ole PII skaneerimise vältimatu kulu. See on üldiste tööriistade kasutamise kulu konkreetse töövoo puhul. Lahendus on seadistamine, mitte suurem meeskond.
Meie GDPR vastavuse juhend katab andmete minimeerimise reegleid. Meie turbe ja vastavuse ülevaade selgitab tehnilisi kontrolle, mis toetavad nõuetekohast KYC töövoogu.