Protichůdná pravidla KYC
Pravidla Know Your Customer (KYC) vytvářejí pro fintechové firmy skutečné napětí. Regulátoři chtějí důkladné ověřování totožnosti. Vyžadují, aby firmy sbíraly a ověřovaly osobní dokumenty. Zákony o ochraně dat ale tlačí opačným směrem. Vyžadují, aby firmy tato data minimalizovaly, jakmile jsou shromážděna.
Banka, která otevírá nový účet, shromažďuje mnoho dokumentů. Patří sem průkazy totožnosti, cestovní pasy a řidičské průkazy. Dále doklady o adrese a finanční dokumenty. Tyto soubory obsahují husté osobní údaje. GDPR, předpisy AML a bankovní dohled vyžadují přísné nakládání s nimi.
Když tato data přecházejí do systémů pro detekci podvodů nebo analytiky, platí další pravidla. Nastupují pravidla GDPR o zpracování dat. Osobní údaje musí být před jakýmkoli sekundárním použitím maskovány nebo de-identifikovány.
Problém dvoudenního backlogu
Digitální banka zpracovávala 5 000 KYC žádostí denně v 15 zemích EU. Krok skenování PII způsobil vážný problém. Míra falešných poplachů byla příliš vysoká. Fronty ke kontrole rostly, až dosáhly dvoudenního backlogu.
Příčina byla zřejmá. Jejich nástroj založený na strojovém učení označoval přibližně 8 % textu, který osobními údaji nebyl, jako osobní data. Každý soubor měl mnoho stránek. Denní objem falešných poplachů byl příliš velký na to, aby ho tým zvládl vyčistit za jeden den. Stále zaostávali.
Falešné poplachy spadaly do tří skupin:
- Názvy společností označené jako jména osob (model zaměňoval vlastní jména)
- Referenční kódy označené jako čísla průkazů (nebyla použita žádná kontrola kontrolního součtu)
- Běžná křestní jména jako „Chase” v názvech bank označená jako PII jmen osob
Každý falešný poplach vyžadoval lidský přezkum. Při 8 % z 5 000 denních souborů to produkovalo tisíce denních úkolů. Žádný nešel automatizovat.
Co ukazuje výzkum ACL
Výzkum ACL 2024 testoval vícejazyčné modely NLP pro detekci PII. Závěr byl jednoznačný. Pouze 5 % vícejazyčných modelů NLP dosáhne F1 skóre vyššího než 85 % pro PII v jiných jazycích než angličtině napříč všemi 24 jazyky EU.
F1 skóre kombinuje přesnost a úplnost detekce (recall). Nízká přesnost znamená mnoho falešných poplachů. Nízký recall znamená mnoho přehlédnutých položek. Oba výsledky jsou špatné. 95% míra selhání při dosažení 85 % F1 ukazuje, jak náročné je vícejazyčné skenování PII v praxi.
Naproti tomu XLM-RoBERTa dosahuje 91,4% mezijazykového F1 pro úlohy PII. Toto číslo pochází z benchmarkingu HuggingFace 2024. Rozdíl mezi 91,4 % a mediánovým modelem vysvětluje, proč standardní nástroje selhávají v rámci vícejazyčného KYC.
Hybridní přístup pro KYC s velkým objemem
Problém falešných poplachů je řešitelný. Tři konstrukční volby ho odstraní.
Regulární výrazy s kontrolou kontrolního součtu: Čísla národních průkazů totožnosti mají pevná pravidla. Německé Steuer-ID, nizozemské BSN a polské PESEL každý používají matematiku kontrolního součtu. Pokud číslo kontrolním součtem neprojde, nejde o průkaz totožnosti. Formát společně s kontrolním součtem přináší téměř nulové falešné poplachy pro tyto identifikátory.
Kontextově citlivý NLP pro jména: Jména osob v souborech KYC se vyskytují na známých místech. Patří sem „Jméno:”, „Příjmení:” a pevně daná pole formuláře. Vyžadování kontextového slova před označením jména snižuje falešné poplachy. Zastaví to spouštění upozornění na jméno osoby názvy firem.
Ladění prahových hodnot podle typu souboru: Soubory KYC se liší od podpůrných e-mailů nebo lékařských poznámek. Každý typ má jiné složení PII. Nastavení prahových hodnot pro každý typ souboru umožňuje týmům přizpůsobit je svým potřebám. KYC s velkým objemem získá vyšší přesnost. Lékařská de-identifikace získá vyšší recall.
Dvoudenní backlog není nevyhnutelnou cenou skenování PII. Je to cena za použití obecných nástrojů na specifický pracovní postup. Řešením je konfigurace, nikoli větší tým.
Náš průvodce souladem s GDPR pokrývá pravidla minimalizace dat. Náš přehled bezpečnosti a souladu s předpisy vysvětluje technické kontroly podporující compliantní pracovní postupy KYC.