Mga Magkasalungat na Panuntunan ng KYC

Ang mga patakaran ng Know Your Customer (KYC) ay lumilikha ng tunay na tensyon para sa mga fintech firm. Gustong maging masusing suriin ng mga regulator ang pagkakakilanlan. Nangangailangan sila sa mga firm na mangolekta at mag-verify ng mga personal na dokumento. Ngunit tinutulak ng mga batas sa datos sa kabaligtaran na direksyon. Nangangailangan sila sa mga firm na i-minimize ang datos na iyon kapag nakolekta na ito.

Ang isang bangkong nagbubukas ng bagong account ay nangongolekta ng maraming dokumento. Kabilang dito ang mga national ID card, pasaporte, at driving licence. Nangongolekta rin ito ng patunay ng address at mga pinansyal na papel. Ang mga file na ito ay may siksik na personal na datos. Ang GDPR, mga patakaran ng AML, at mga banking supervisor ay lahat nangangailangan ng mahigpit na pamamahala.

Kapag lumipat ang datos na iyon sa mga sistema ng pandaraya o analytics, nalalapat ang karagdagang mga patakaran. Nagsisimula ang mga patakaran ng datos ng GDPR. Ang personal na datos ay dapat i-mask o de-identify bago ang anumang pangalawang paggamit.

Ang Problema sa 2-Araw na Backlog

Nagproseso ang isang digital na bangko ng 5,000 KYC application araw-araw sa 15 bansa ng EU. Ang kanilang hakbang sa PII scan ay nagdulot ng seryosong problema. Masyadong mataas ang false positive rate. Lumago ang mga review queue hanggang umabot sila sa isang 2-araw na backlog.

Malinaw ang ugat na dahilan. Tinatanda ng kanilang ML-based na tool ang humigit-kumulang 8% ng non-PII na teksto bilang personal na datos. Ang bawat file ay may maraming pahina. Masyadong malaking dami ng araw-araw na false positive para ma-clear ng team sa isang araw. Patuloy silang nagtatago sa likod.

Nahulog ang mga false positive sa tatlong grupo:

Mga pangalan ng kumpanya na natanda bilang mga pangalan ng tao (nalito ang modelo sa mga proper noun)
Mga reference code na natanda bilang mga ID number (walang ginamit na checksum check)
Mga karaniwang unang pangalan tulad ng "Chase" sa mga pangalan ng bangko na natanda bilang person-name PII

Bawat false positive ay nangangailangan ng pagsusuri ng tao. Sa 8% sa 5,000 araw-araw na file, gumawa ito ng libu-libong araw-araw na gawain. Wala ni isa ang maaaring i-automate palayo.

Ano ang Ipinapakita ng Pananaliksik ng ACL

Sinasubukan ng pananaliksik ng ACL 2024 ang mga multilingual na NLP model para sa PII detection. Ang natuklasan ay malinaw. Tanging 5% lamang ng mga multilingual na NLP model ang umaabot ng higit sa 85% F1-score para sa non-English PII sa lahat ng 24 na wika ng EU.

Pinagsasama ng F1-score ang precision at recall. Ang mababang precision ay nangangahulugang maraming false positive. Ang mababang recall ay nangangahulugang maraming napalampas na item. Ang parehong kinalabasan ay may mahinang score. Ang 95% na rate ng kabiguan na umabot sa 85% F1 ay nagpapakita kung gaano kahirap ang cross-lingual PII scanning sa praktis.

Sa kabaligtaran, ang XLM-RoBERTa ay nakakamit ng 91.4% cross-lingual F1 para sa mga gawain ng PII. Ang figure na ito ay mula sa HuggingFace 2024 benchmarking. Ang agwat sa pagitan ng 91.4% at ng median model ay nagpapaliwanag kung bakit nabibigo ang mga off-the-shelf na tool sa multilingual KYC.

Hybrid na Disenyo para sa Mataas na Dami ng KYC

Maaaring malutas ang problema sa false positive. Tatlong pagpipilian sa disenyo ang nagaayos nito.

Regex na may checksum checking: Ang mga national ID number ay may nakatakdang mga panuntunan. Ang German Steuer-ID, Dutch BSN, at Polish PESEL ay bawat isa ay gumagamit ng checksum math. Kung nabigo ang isang numero sa checksum, hindi ito isang national ID. Ang format kasama ang checksum ay nagpo-produce ng halos zero na false positive para sa mga ID na ito.

Context-aware NLP para sa mga pangalan: Ang mga pangalan ng tao sa mga KYC file ay lumalabas sa mga kilalang lugar. Kabilang dito ang "Pangalan:", "Apelyido:", at mga nakatakdang field ng form. Ang pag-require ng isang context word bago mag-flag ng pangalan ay nagbabawas ng mga false positive. Pinipigilan nito ang mga pangalan ng firm na mag-trigger ng mga alerto para sa pangalan ng tao.

Threshold tuning ayon sa uri ng file: Ang mga KYC file ay naiiba mula sa mga support email o medikal na nota. Bawat uri ay may iba't ibang PII mix. Ang pagtatakda ng mga threshold bawat uri ng file ay nagpapahintulot sa mga team na i-tune para sa kanilang mga pangangailangan. Ang mataas na dami ng KYC ay nakakakuha ng mas mataas na precision. Ang medikal na de-identification ay nakakakuha ng mas mataas na recall.

Ang 2-araw na backlog ay hindi isang hindi maiwasang gastos ng PII scanning. Ito ay isang gastos ng paggamit ng mga generic na tool sa isang tiyak na workflow. Ang solusyon ay setup, hindi isang mas malaking team.

Sasaklaw ang aming gabay sa GDPR compliance sa mga patakaran ng data minimization. Ipapaliwanag ng aming pangkalahatang-ideya ng seguridad at compliance ang mga teknikal na kontrol na sumusuporta sa mga naaayon na KYC workflow.

Mga Pinagkukunan

Mga Kaugnay na Artikulo

GDPR & Pagsunod

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

Simulan ang Libreng Pagsubok Tingnan ang Mga Tampok

KYC sa Malaking Sukat: Mga Gastos ng False Positive

Mga Magkasalungat na Panuntunan ng KYC

Ang Problema sa 2-Araw na Backlog

Ano ang Ipinapakita ng Pananaliksik ng ACL

Hybrid na Disenyo para sa Mataas na Dami ng KYC

Mga Pinagkukunan

Mga Kaugnay na Artikulo

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Handa nang protektahan ang iyong data?

KYC sa Malaking Sukat: Mga Gastos ng False Positive

Mga Magkasalungat na Panuntunan ng KYC

Ang Problema sa 2-Araw na Backlog

Ano ang Ipinapakita ng Pananaliksik ng ACL

Hybrid na Disenyo para sa Mataas na Dami ng KYC

Mga Pinagkukunan

Mga Kaugnay na Artikulo

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Handa nang protektahan ang iyong data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow