KYC konkuruojančios taisyklės

Kliento pažinimo (KYC) taisyklės sukuria tikrą įtampą finansinių technologijų įmonėms. Reguliuotojai nori išsamių tapatybės patikrinimų. Jie reikalauja, kad įmonės rinktų ir tikrintų asmens dokumentus. Tačiau duomenų įstatymai stumia kita kryptimi. Jie reikalauja, kad įmonės, surinkusios duomenis, juos kuo labiau sumažintų.

Bankas, atidarantis naują sąskaitą, renka daug dokumentų. Tai apima nacionalinius ID korteles, pasus ir vairuotojo pažymėjimus. Taip pat renkamas adresas ir finansiniai dokumentai. Šiuose failuose yra daug asmens duomenų. BDAR, kovos su pinigų plovimu taisyklės ir bankų priežiūros institucijos reikalauja griežto tvarkymo.

Kai tie duomenys perduodami į sukčiavimo sistemas ar analizei, taikomos papildomos taisyklės. Įsigalioja BDAR duomenų taisyklės. Asmens duomenys turi būti paslėpti arba de-identifikuoti prieš bet kokį antrinį naudojimą.

2 dienų vėlavimo problema

Skaitmeninis bankas kasdien apdorojo 5 000 KYC paraiškų 15 ES šalių. Jų asmens duomenų nuskaitymo žingsnis sukėlė rimtą problemą. Klaidingų teigiamų dažnis buvo per didelis. Peržiūros eilės išaugo iki 2 dienų vėlavimo.

Pagrindinė priežastis buvo aiški. Jų ML pagrįstas įrankis pažymėdavo apie 8 % ne asmens duomenų teksto kaip asmeninę informaciją. Kiekvienas failas turėjo daug puslapių. Dienos klaidingų teigiamų kiekis buvo per didelis komandai, kad ji galėtų jį išvalyti per vieną dieną. Jie nuolat atsilikdavo.

Klaidingi teigiami suskirstyti į tris grupes:

Įmonių pavadinimai pažymėti kaip asmenų vardai (modelis painiojo tikrinius daiktavardžius)
Nuorodos kodai pažymėti kaip ID numeriai (nenaudotas kontrolinės sumos tikrinimas)
Įprasti vardai, tokie kaip "Chase" banko pavadinimuose, pažymėti kaip asmens vardo asmens duomenys

Kiekvienas klaidingas teigiamas reikalavo žmogaus peržiūros. Esant 8 % iš 5 000 dienos failų, tai generavo tūkstančius dienos užduočių. Nė viena negalėjo būti automatiškai pašalinta.

Ką rodo ACL tyrimas

ACL 2024 m. tyrimas bandė daugiakalbius NLP modelius asmens duomenų aptikimui. Išvada buvo ryški. Tik 5 % daugiakalbių NLP modelių pasiekia geriau nei 85 % F1 balą ne anglų kalbos asmens duomenims visose 24 ES kalbose.

F1 balas apjungia tikslumą ir atkūrimą. Žemas tikslumas reiškia daug klaidingų teigiamų. Žemas atkūrimas reiškia daug praleistų elementų. Abu rezultatai vertinami prastai. 95 % nepavykimų pasiekti 85 % F1 rodo, koks sudėtingas daugiakalbis asmens duomenų nuskaitymas yra praktiškai.

Palyginimui, XLM-RoBERTa pasiekia 91,4 % tarpkalbinį F1 asmens duomenų užduotims. Šis skaičius yra iš HuggingFace 2024 m. lyginamojo testavimo. Skirtumas tarp 91,4 % ir medianos modelio paaiškina, kodėl paruošti naudoti įrankiai neveikia daugiakalbiam KYC.

Hibridinis projektavimas didelio masto KYC

Klaidingų teigiamų problema yra išsprendžiama. Trys projektavimo pasirinkimai ją išsprendžia.

Reguliariosios išraiškos su kontrolinės sumos tikrinimu: Nacionaliniai ID numeriai turi fiksuotas taisykles. Vokietijos Steuer-ID, Nyderlandų BSN ir Lenkijos PESEL kiekvienas naudoja kontrolinės sumos matematiką. Jei numeris nepatenka kontrolinę sumą, jis nėra nacionalinis ID. Formatas kartu su kontroline suma duoda beveik nulinį klaidingų teigiamų skaičių šiems ID.

Kontekstui jautrus NLP vardams: Asmenų vardai KYC failuose pasirodo žinomose vietose. Tai apima "Vardas:", "Pavardė:" ir nustatytos formos laukus. Reikalaujant kontekstinio žodžio prieš vardo pažymėjimą, sumažėja klaidingi teigiami. Tai sustabdo įmonių pavadinimus nuo asmens vardo įspėjimų aktyvavimo.

Ribos derinimas pagal failo tipą: KYC failai skiriasi nuo palaikymo el. laiškų ar medicininių įrašų. Kiekvienas tipas turi skirtingą asmens duomenų mišinį. Nustatant ribas pagal failo tipą, komandos gali derinti pagal savo poreikius. Didelio masto KYC gauna didesnį tikslumą. Medicininė de-identifikacija gauna didesnį atkūrimą.

2 dienų vėlavimas nėra neišvengiama asmens duomenų nuskaitymo kaina. Tai yra bendrų įrankių naudojimo specifiniam darbo srautui kaina. Sprendimas yra sąranka, o ne didesnė komanda.

Mūsų BDAR atitikties vadovas apima duomenų minimizavimo taisykles. Mūsų saugumo ir atitikties apžvalga aiškina technines priemones, palaikančias atitinkamus KYC darbo srautus.

Šaltiniai

Susiję Straipsniai

GDPR ir Atitiktis

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

Pradėti Nemokamą Bandomąją Versiją Peržiūrėti Funkcijas

KYC dideliu mastu: klaidingų teigiamų kaštai

KYC konkuruojančios taisyklės

2 dienų vėlavimo problema

Ką rodo ACL tyrimas

Hibridinis projektavimas didelio masto KYC

Šaltiniai

Susiję Straipsniai

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Pasiruošę apsaugoti savo duomenis?

KYC dideliu mastu: klaidingų teigiamų kaštai

KYC konkuruojančios taisyklės

2 dienų vėlavimo problema

Ką rodo ACL tyrimas

Hibridinis projektavimas didelio masto KYC

Šaltiniai

Susiję Straipsniai

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Pasiruošę apsaugoti savo duomenis?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow