KYC-ի Մրցակցող Կանոնները

KYC (Ճանաչի'ր Քո Հաճախորդին) կանոնները ստեղծում են իրական լարվածություն fintech ընկերությունների համար: Կարգավորիչներն ուզում են մանրամասն ինքնության ստուգումներ: Նրանք պահանջում են ընկերություններից հավաքել ու հաստատել անձնական փաստաթղթեր: Սակայն տվյալների օրենքները հակառակ ուղղությամբ են: Դրանք պահանջում են ընկերություններից նվազագույն ծավալով պահել տվյալները, երբ դրանք հավաքվել են:

Նոր հաշիվ բացող բանկը հավաքում է բազմաթիվ փաստաթղթեր: Դրանք ներառում են ազգային ID քարտեր, անձնագրեր ու վարորդական վկայականներ: Նաև՝ հասցեի ու ֆինանսական փաստաթղթերի ապացույց: Այս ֆայլերն ունեն խիտ անձնական տվյալներ: GDPR, AML կանոնները ու բանկային վերահսկիչները պահանջում են խիստ կառավարում:

Երբ այդ տվյալներն անցնում են խարդախության համակարգեր կամ analytics, լրացուցիչ կանոններ են կիրառվում: GDPR-ի տվյալ-կանոնները ակտիվանում են: Անձնական տվյալները պետք է թաքցված կամ ապաիդենտիֆիկացված լինեն ցանկացած երկրորդ կիրառությունից առաջ:

2-Օրյա Կուտակման Խնդիրը

Digital bank-ն օրական 5,000 KYC հայտ է մշակել 15 EU երկրներում: PII-ի սկան-քայլն ստեղծել է լուրջ խնդիր: Կեղծ-դրականների տոկոսն շատ բարձր էր: Վերանայման հերթն աճել էր մինչ 2-օրյա կուտակում:

Արմատական պատճառն ակնհայտ էր: ML-հիմնված գործիքն ոչ-PII տեքստի մոտ 8%-ն անձնական տվյալ էր ճանաչել: Ամեն ֆայլ ունի շատ էջ: Օրական կեղծ-դրականների ծավալն այնքան մեծ էր, որ թիմը մի օրում չէր կարողանում ամեն ինչ ստուգել: Նրանք շարունակ ետ էին ընկնում:

Կեղծ-դրականները ընկնում էին երեք խմբի.

Ընկերության անունները ճանաչվել էին որպես անձի անուն (մոդելը շփոթում էր հատուկ անունները)
Հղման կոդերը ճանաչվել էին որպես ID համար (checksum ստուգում չի կիրառվել)
"Chase"-ի նման ընդհանուր անուններ բանկի անուններում ճանաչվել էին որպես անձ-անուն PII

Յուրաքանչյուր կեղծ-դրականն անձնային վերանայման կարիք ուներ: 5,000 օրական ֆայլերի 8%-ը հազարավոր օրական առաջադրանք է ստեղծել: Ոչ մեկը ավտոմատ կերպով չէր կարելի հեռացնել:

Ի՞նչ Ցույց Է Տալիս ACL Հետազոտությունը

ACL 2024 հետազոտությունը PII հայտնաբերման համար փորձարկեց բազմալեզու NLP մոդելները: Արդյունքը ախտորոշիչ էր: Բազմալեզու NLP մոդելների ընդամենն 5%-ն հասնում է 85% F1-ից ավելի ոչ-անգլերեն PII-ի համար EU-ի բոլոր 24 լեզուներով:

F1-ը համատեղում է precision-ն ու recall-ը: Ցածր precision-ը նշանակում է շատ կեղծ-դրական: Ցածր recall-ը՝ շատ բաց թողնված: Երկու արդյունքն էլ վատ են գնահատված: 85% F1-ին հասնելու 95%-ի ձախողման տոկոսը ցույց է տալիս, թե ինչ դժվար է cross-lingual PII-ի scan-ն իրականում:

Համեմատաբար, XLM-RoBERTa-ն ձեռք բերում է 91.4% cross-lingual F1 PII-ի խնդիրների համար: Այս ցուցանիշը HuggingFace 2024 benchmarking-ից է: 91.4%-ի ու միջին մոդելի տարբերությունն բացատրում է, թե ինչու off-the-shelf գործիքները ձախողվում են բազմալեզու KYC-ում:

Hybrid Ձևավորում Բարձր Ծավալի KYC-ի Համար

Կեղծ-դրականների խնդիրը լուծելի է: Երեք ձևավորման ընտրություն է ուղղում:

Regex checksum ստուգումով: Ազգային ID-ի համարներն ունեն ֆիքսված կանոններ: Գերմանական Steuer-ID, Հոլանդական BSN ու Լեհական PESEL-ն ամեն մեկն օգտագործում է checksum հաշվարկ: Եթե թիվն ձախողում է checksum-ն, ազգային ID չէ: Ֆորմատ plus checksum-ն ստեղծում է գրեթե-զրո կեղծ-դրական այս ID-ների համար:

Կոնտեքստ-aware NLP անունների համար: Անձի անուններն KYC ֆայլերում հայտնվում են հայտնի տեղերում: Դրանք ներառում են "Name:", "Surname:" ու ֆորմայի ֆիքսված դաշտեր: Անուն նշելուց առաջ կոնտեքստ-բառ պահանջելը կտրում է կեղծ-դրականները: Ֆիրմաների անունները կանխում է անձ-անուն ազդակ-տալ:

Threshold tuning ֆայլ-տեսակով: KYC ֆայլերը տարբերվում են support email-ներից կամ բժշկական նշումներից: Ամեն տեսակ ունի տարբեր PII-ի mix: Ֆայլ-տեսակով threshold-ի կարգաբերումը թիմերին հնարավորություն է տալիս հարմարեցնել իրենց կարիքների համար: Բարձր-ծավալ KYC-ն ստանում է ավելի բարձր precision: Բժշկական ապաիդենտիֆիկացիան ստանում է ավելի բարձր recall:

2-օրյա կուտակումն PII scan-ի անխուսափելի ծախս չէ: Կոնկրետ workflow-ի վրա ընդհանուր գործիքներ կիրառելու ծախս է: Ուղղումն setup-ն է, ոչ ավելի մեծ թիմ:

Մեր GDPR-ի համապատասխանության ուղեցույցը ծածկում է տվյալ-նվազագույնի կանոնները: Մեր անվտանգության ու համապատասխանության ակնարկը բացատրում է տեխնիկական վերահսկիչները, որոնք ապահովում են KYC workflow-ն:

Աղբյուրներ

Հոդվածներ, որոնք կապված են

GDPR & Համապատասխանություն

Պատրաստ եք պաշտպանելու ձեր տվյալները?

Սկսեք PII անանոնիմացնել 285+ կազմակերպության տեսակներով 48 լեզուներով:

Սկսեք անվճար փորձաշրջան Դիտել առանձնահատկությունները

KYC Մեծ Ծավալի Պայմաններում. Կեղծ-Դրականների Ծախսերը

KYC-ի Մրցակցող Կանոնները

2-Օրյա Կուտակման Խնդիրը

Ի՞նչ Ցույց Է Տալիս ACL Հետազոտությունը

Hybrid Ձևավորում Բարձր Ծավալի KYC-ի Համար

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Պատրաստ եք պաշտպանելու ձեր տվյալները?

KYC Մեծ Ծավալի Պայմաններում. Կեղծ-Դրականների Ծախսերը

KYC-ի Մրցակցող Կանոնները

2-Օրյա Կուտակման Խնդիրը

Ի՞նչ Ցույց Է Տալիս ACL Հետազոտությունը

Hybrid Ձևավորում Բարձր Ծավալի KYC-ի Համար

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Պատրաստ եք պաշտպանելու ձեր տվյալները?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow