KYC konkurējošie noteikumi
Klientu pārzināšanas (KYC) noteikumi rada reālu spriedzi finanšu tehnoloģiju uzņēmumiem. Regulatori vēlas rūpīgas identitātes pārbaudes. Tie prasa uzņēmumiem ievākt un verificēt personas dokumentus. Bet datu likumi virza pretējā virzienā. Tie prasa uzņēmumiem samazināt šos datus pēc to savākšanas.
Banka, kas atver jaunu kontu, savāc daudzus dokumentus. Tie ietver nacionālās ID kartes, pases un vadītāja apliecības. Tāpat dzīvesvietas apliecinājumus un finanšu dokumentus. Šajos failos ir blīvi personas dati. GDPR, AML noteikumi un banku uzraugi visi prasa stingru rīcību.
Kad šie dati nonāk krāpšanas apkarošanas sistēmās vai analītikā, piemērojas papildu noteikumi. Spēkā stājas GDPR datu noteikumi. Personas dati jāmaskē vai jāde-identificē pirms jebkādas otrreizējas izmantošanas.
2 dienu uzkrājuma problēma
Digitālā banka apstrādāja 5 000 KYC pieteikumu dienā 15 ES valstīs. To PII skenēšanas solis radīja nopietnu problēmu. Viltus pozitīvo rādītājs bija pārāk augsts. Pārskatīšanas rindas auga, līdz sasasniedza 2 dienu uzkrājumu.
Pamatiemesls bija skaidrs. To uz ML balstītais rīks atzīmēja aptuveni 8% ne-PII teksta kā personas datus. Katram failam bija daudzas lapas. Ikdienas viltus pozitīvo apjoms bija pārāk liels, lai komanda to varētu atrisināt vienā dienā. Viņi turpināja atpalikt.
Viltus pozitīvie ietilpa trīs grupās:
- Uzņēmumu nosaukumi atzīmēti kā personu vārdi (modelis sajaucis īpašvārdus)
- Atsauces kodi atzīmēti kā ID numuri (nebija izmantota kontrolsummu pārbaude)
- Parasti vārdi kā "Chase" banku nosaukumos atzīmēti kā personas vārda PII
Katrs viltus pozitīvs prasīja cilvēka pārskatīšanu. Pie 8% no 5 000 ikdienas failiem tas radīja tūkstošiem ikdienas uzdevumu. Nevienu nevarēja automatizēt.
Ko ACL pētījums rāda
ACL 2024 pētījums testēja daudzvalodu NLP modeļus PII noteikšanai. Atklājums bija skaidrs. Tikai 5% daudzvalodu NLP modeļu sasniedz labāku F1 rādītāju par 85% ne-angļu PII gadījumā visās 24 ES valodās.
F1 rādītājs apvieno precizitāti un pabeigtību. Zema precizitāte nozīmē daudzus viltus pozitīvos. Zema pabeigtība nozīmē daudzus palaistus vienumus. Abi iznākumi rada zemus rādītājus. 95% nespēja sasniegt 85% F1 parāda, cik grūta ir starpvalodu PII skenēšana praksē.
Salīdzinājumā, XLM-RoBERTa sasniedz 91,4% starpvalodu F1 PII uzdevumiem. Šis skaitlis ir no HuggingFace 2024 testiem. Plaisa starp 91,4% un mediānas modeli izskaidro, kāpēc gatavie rīki cieš neveiksmi daudzvalodu KYC gadījumā.
Hibrīda dizains lielu apjomu KYC
Viltus pozitīvo problēma ir risināma. Trīs dizaina izvēles to novērš.
Regulārā izteiksme ar kontrolsummu pārbaudi: Nacionālajiem ID numuriem ir fiksēti noteikumi. Vācijas Steuer-ID, Nīderlandes BSN un Polijas PESEL katrs izmanto kontrolsummu matemātiku. Ja numurs neizdod kontrolsummu, tas nav nacionālais ID. Formāts plus kontrolsumma rada gandrīz nulles viltus pozitīvos šiem ID.
Kontekstam atbilstošs NLP vārdiem: Personu vārdi KYC failos parādās zināmās vietās. Tie ietver "Vārds:", "Uzvārds:" un noteiktus veidlapu laukus. Konteksta vārda prasīšana pirms vārda atzīmēšanas samazina viltus pozitīvos. Tas novērš uzņēmumu nosaukumu trigeros personas vārdu brīdinājumus.
Sliekšņa regulēšana pēc faila tipa: KYC faili atšķiras no atbalsta e-pastiem vai medicīnas piezīmēm. Katram tipam ir atšķirīgs PII maisījums. Sliekšņu iestatīšana pēc faila tipa ļauj komandām regulēt savām vajadzībām. Lielu apjomu KYC saņem augstāku precizitāti. Medicīnas de-identifikācija saņem augstāku pabeigtību.
2 dienu uzkrājums nav neizbēgamas PII skenēšanas izmaksas. Tās ir vispārēju rīku izmantošanas izmaksas konkrētā darbplūsmā. Risinājums ir konfigurācija, nevis lielāka komanda.
Mūsu GDPR atbilstības ceļvedis aptver datu minimizācijas noteikumus. Mūsu drošības un atbilstības pārskats paskaidro tehniskos kontroles mehānismus, kas atbalsta atbilstīgas KYC darbplūsmas.