Mga Magkasalungat na Panuntunan ng KYC
Ang mga patakaran ng Know Your Customer (KYC) ay lumilikha ng tunay na tensyon para sa mga fintech firm. Gustong maging masusing suriin ng mga regulator ang pagkakakilanlan. Nangangailangan sila sa mga firm na mangolekta at mag-verify ng mga personal na dokumento. Ngunit tinutulak ng mga batas sa datos sa kabaligtaran na direksyon. Nangangailangan sila sa mga firm na i-minimize ang datos na iyon kapag nakolekta na ito.
Ang isang bangkong nagbubukas ng bagong account ay nangongolekta ng maraming dokumento. Kabilang dito ang mga national ID card, pasaporte, at driving licence. Nangongolekta rin ito ng patunay ng address at mga pinansyal na papel. Ang mga file na ito ay may siksik na personal na datos. Ang GDPR, mga patakaran ng AML, at mga banking supervisor ay lahat nangangailangan ng mahigpit na pamamahala.
Kapag lumipat ang datos na iyon sa mga sistema ng pandaraya o analytics, nalalapat ang karagdagang mga patakaran. Nagsisimula ang mga patakaran ng datos ng GDPR. Ang personal na datos ay dapat i-mask o de-identify bago ang anumang pangalawang paggamit.
Ang Problema sa 2-Araw na Backlog
Nagproseso ang isang digital na bangko ng 5,000 KYC application araw-araw sa 15 bansa ng EU. Ang kanilang hakbang sa PII scan ay nagdulot ng seryosong problema. Masyadong mataas ang false positive rate. Lumago ang mga review queue hanggang umabot sila sa isang 2-araw na backlog.
Malinaw ang ugat na dahilan. Tinatanda ng kanilang ML-based na tool ang humigit-kumulang 8% ng non-PII na teksto bilang personal na datos. Ang bawat file ay may maraming pahina. Masyadong malaking dami ng araw-araw na false positive para ma-clear ng team sa isang araw. Patuloy silang nagtatago sa likod.
Nahulog ang mga false positive sa tatlong grupo:
- Mga pangalan ng kumpanya na natanda bilang mga pangalan ng tao (nalito ang modelo sa mga proper noun)
- Mga reference code na natanda bilang mga ID number (walang ginamit na checksum check)
- Mga karaniwang unang pangalan tulad ng "Chase" sa mga pangalan ng bangko na natanda bilang person-name PII
Bawat false positive ay nangangailangan ng pagsusuri ng tao. Sa 8% sa 5,000 araw-araw na file, gumawa ito ng libu-libong araw-araw na gawain. Wala ni isa ang maaaring i-automate palayo.
Ano ang Ipinapakita ng Pananaliksik ng ACL
Sinasubukan ng pananaliksik ng ACL 2024 ang mga multilingual na NLP model para sa PII detection. Ang natuklasan ay malinaw. Tanging 5% lamang ng mga multilingual na NLP model ang umaabot ng higit sa 85% F1-score para sa non-English PII sa lahat ng 24 na wika ng EU.
Pinagsasama ng F1-score ang precision at recall. Ang mababang precision ay nangangahulugang maraming false positive. Ang mababang recall ay nangangahulugang maraming napalampas na item. Ang parehong kinalabasan ay may mahinang score. Ang 95% na rate ng kabiguan na umabot sa 85% F1 ay nagpapakita kung gaano kahirap ang cross-lingual PII scanning sa praktis.
Sa kabaligtaran, ang XLM-RoBERTa ay nakakamit ng 91.4% cross-lingual F1 para sa mga gawain ng PII. Ang figure na ito ay mula sa HuggingFace 2024 benchmarking. Ang agwat sa pagitan ng 91.4% at ng median model ay nagpapaliwanag kung bakit nabibigo ang mga off-the-shelf na tool sa multilingual KYC.
Hybrid na Disenyo para sa Mataas na Dami ng KYC
Maaaring malutas ang problema sa false positive. Tatlong pagpipilian sa disenyo ang nagaayos nito.
Regex na may checksum checking: Ang mga national ID number ay may nakatakdang mga panuntunan. Ang German Steuer-ID, Dutch BSN, at Polish PESEL ay bawat isa ay gumagamit ng checksum math. Kung nabigo ang isang numero sa checksum, hindi ito isang national ID. Ang format kasama ang checksum ay nagpo-produce ng halos zero na false positive para sa mga ID na ito.
Context-aware NLP para sa mga pangalan: Ang mga pangalan ng tao sa mga KYC file ay lumalabas sa mga kilalang lugar. Kabilang dito ang "Pangalan:", "Apelyido:", at mga nakatakdang field ng form. Ang pag-require ng isang context word bago mag-flag ng pangalan ay nagbabawas ng mga false positive. Pinipigilan nito ang mga pangalan ng firm na mag-trigger ng mga alerto para sa pangalan ng tao.
Threshold tuning ayon sa uri ng file: Ang mga KYC file ay naiiba mula sa mga support email o medikal na nota. Bawat uri ay may iba't ibang PII mix. Ang pagtatakda ng mga threshold bawat uri ng file ay nagpapahintulot sa mga team na i-tune para sa kanilang mga pangangailangan. Ang mataas na dami ng KYC ay nakakakuha ng mas mataas na precision. Ang medikal na de-identification ay nakakakuha ng mas mataas na recall.
Ang 2-araw na backlog ay hindi isang hindi maiwasang gastos ng PII scanning. Ito ay isang gastos ng paggamit ng mga generic na tool sa isang tiyak na workflow. Ang solusyon ay setup, hindi isang mas malaking team.
Sasaklaw ang aming gabay sa GDPR compliance sa mga patakaran ng data minimization. Ipapaliwanag ng aming pangkalahatang-ideya ng seguridad at compliance ang mga teknikal na kontrol na sumusuporta sa mga naaayon na KYC workflow.