KYC-ի Մրցակցող Կանոնները
KYC (Ճանաչի'ր Քո Հաճախորդին) կանոնները ստեղծում են իրական լարվածություն fintech ընկերությունների համար: Կարգավորիչներն ուզում են մանրամասն ինքնության ստուգումներ: Նրանք պահանջում են ընկերություններից հավաքել ու հաստատել անձնական փաստաթղթեր: Սակայն տվյալների օրենքները հակառակ ուղղությամբ են: Դրանք պահանջում են ընկերություններից նվազագույն ծավալով պահել տվյալները, երբ դրանք հավաքվել են:
Նոր հաշիվ բացող բանկը հավաքում է բազմաթիվ փաստաթղթեր: Դրանք ներառում են ազգային ID քարտեր, անձնագրեր ու վարորդական վկայականներ: Նաև՝ հասցեի ու ֆինանսական փաստաթղթերի ապացույց: Այս ֆայլերն ունեն խիտ անձնական տվյալներ: GDPR, AML կանոնները ու բանկային վերահսկիչները պահանջում են խիստ կառավարում:
Երբ այդ տվյալներն անցնում են խարդախության համակարգեր կամ analytics, լրացուցիչ կանոններ են կիրառվում: GDPR-ի տվյալ-կանոնները ակտիվանում են: Անձնական տվյալները պետք է թաքցված կամ ապաիդենտիֆիկացված լինեն ցանկացած երկրորդ կիրառությունից առաջ:
2-Օրյա Կուտակման Խնդիրը
Digital bank-ն օրական 5,000 KYC հայտ է մշակել 15 EU երկրներում: PII-ի սկան-քայլն ստեղծել է լուրջ խնդիր: Կեղծ-դրականների տոկոսն շատ բարձր էր: Վերանայման հերթն աճել էր մինչ 2-օրյա կուտակում:
Արմատական պատճառն ակնհայտ էր: ML-հիմնված գործիքն ոչ-PII տեքստի մոտ 8%-ն անձնական տվյալ էր ճանաչել: Ամեն ֆայլ ունի շատ էջ: Օրական կեղծ-դրականների ծավալն այնքան մեծ էր, որ թիմը մի օրում չէր կարողանում ամեն ինչ ստուգել: Նրանք շարունակ ետ էին ընկնում:
Կեղծ-դրականները ընկնում էին երեք խմբի.
- Ընկերության անունները ճանաչվել էին որպես անձի անուն (մոդելը շփոթում էր հատուկ անունները)
- Հղման կոդերը ճանաչվել էին որպես ID համար (checksum ստուգում չի կիրառվել)
- "Chase"-ի նման ընդհանուր անուններ բանկի անուններում ճանաչվել էին որպես անձ-անուն PII
Յուրաքանչյուր կեղծ-դրականն անձնային վերանայման կարիք ուներ: 5,000 օրական ֆայլերի 8%-ը հազարավոր օրական առաջադրանք է ստեղծել: Ոչ մեկը ավտոմատ կերպով չէր կարելի հեռացնել:
Ի՞նչ Ցույց Է Տալիս ACL Հետազոտությունը
ACL 2024 հետազոտությունը PII հայտնաբերման համար փորձարկեց բազմալեզու NLP մոդելները: Արդյունքը ախտորոշիչ էր: Բազմալեզու NLP մոդելների ընդամենն 5%-ն հասնում է 85% F1-ից ավելի ոչ-անգլերեն PII-ի համար EU-ի բոլոր 24 լեզուներով:
F1-ը համատեղում է precision-ն ու recall-ը: Ցածր precision-ը նշանակում է շատ կեղծ-դրական: Ցածր recall-ը՝ շատ բաց թողնված: Երկու արդյունքն էլ վատ են գնահատված: 85% F1-ին հասնելու 95%-ի ձախողման տոկոսը ցույց է տալիս, թե ինչ դժվար է cross-lingual PII-ի scan-ն իրականում:
Համեմատաբար, XLM-RoBERTa-ն ձեռք բերում է 91.4% cross-lingual F1 PII-ի խնդիրների համար: Այս ցուցանիշը HuggingFace 2024 benchmarking-ից է: 91.4%-ի ու միջին մոդելի տարբերությունն բացատրում է, թե ինչու off-the-shelf գործիքները ձախողվում են բազմալեզու KYC-ում:
Hybrid Ձևավորում Բարձր Ծավալի KYC-ի Համար
Կեղծ-դրականների խնդիրը լուծելի է: Երեք ձևավորման ընտրություն է ուղղում:
Regex checksum ստուգումով: Ազգային ID-ի համարներն ունեն ֆիքսված կանոններ: Գերմանական Steuer-ID, Հոլանդական BSN ու Լեհական PESEL-ն ամեն մեկն օգտագործում է checksum հաշվարկ: Եթե թիվն ձախողում է checksum-ն, ազգային ID չէ: Ֆորմատ plus checksum-ն ստեղծում է գրեթե-զրո կեղծ-դրական այս ID-ների համար:
Կոնտեքստ-aware NLP անունների համար: Անձի անուններն KYC ֆայլերում հայտնվում են հայտնի տեղերում: Դրանք ներառում են "Name:", "Surname:" ու ֆորմայի ֆիքսված դաշտեր: Անուն նշելուց առաջ կոնտեքստ-բառ պահանջելը կտրում է կեղծ-դրականները: Ֆիրմաների անունները կանխում է անձ-անուն ազդակ-տալ:
Threshold tuning ֆայլ-տեսակով: KYC ֆայլերը տարբերվում են support email-ներից կամ բժշկական նշումներից: Ամեն տեսակ ունի տարբեր PII-ի mix: Ֆայլ-տեսակով threshold-ի կարգաբերումը թիմերին հնարավորություն է տալիս հարմարեցնել իրենց կարիքների համար: Բարձր-ծավալ KYC-ն ստանում է ավելի բարձր precision: Բժշկական ապաիդենտիֆիկացիան ստանում է ավելի բարձր recall:
2-օրյա կուտակումն PII scan-ի անխուսափելի ծախս չէ: Կոնկրետ workflow-ի վրա ընդհանուր գործիքներ կիրառելու ծախս է: Ուղղումն setup-ն է, ոչ ավելի մեծ թիմ:
Մեր GDPR-ի համապատասխանության ուղեցույցը ծածկում է տվյալ-նվազագույնի կանոնները: Մեր անվտանգության ու համապատասխանության ակնարկը բացատրում է տեխնիկական վերահսկիչները, որոնք ապահովում են KYC workflow-ն: