Protichůdná pravidla KYC

Pravidla Know Your Customer (KYC) vytvářejí pro fintechové firmy skutečné napětí. Regulátoři chtějí důkladné ověřování totožnosti. Vyžadují, aby firmy sbíraly a ověřovaly osobní dokumenty. Zákony o ochraně dat ale tlačí opačným směrem. Vyžadují, aby firmy tato data minimalizovaly, jakmile jsou shromážděna.

Banka, která otevírá nový účet, shromažďuje mnoho dokumentů. Patří sem průkazy totožnosti, cestovní pasy a řidičské průkazy. Dále doklady o adrese a finanční dokumenty. Tyto soubory obsahují husté osobní údaje. GDPR, předpisy AML a bankovní dohled vyžadují přísné nakládání s nimi.

Když tato data přecházejí do systémů pro detekci podvodů nebo analytiky, platí další pravidla. Nastupují pravidla GDPR o zpracování dat. Osobní údaje musí být před jakýmkoli sekundárním použitím maskovány nebo de-identifikovány.

Problém dvoudenního backlogu

Digitální banka zpracovávala 5 000 KYC žádostí denně v 15 zemích EU. Krok skenování PII způsobil vážný problém. Míra falešných poplachů byla příliš vysoká. Fronty ke kontrole rostly, až dosáhly dvoudenního backlogu.

Příčina byla zřejmá. Jejich nástroj založený na strojovém učení označoval přibližně 8 % textu, který osobními údaji nebyl, jako osobní data. Každý soubor měl mnoho stránek. Denní objem falešných poplachů byl příliš velký na to, aby ho tým zvládl vyčistit za jeden den. Stále zaostávali.

Falešné poplachy spadaly do tří skupin:

Názvy společností označené jako jména osob (model zaměňoval vlastní jména)
Referenční kódy označené jako čísla průkazů (nebyla použita žádná kontrola kontrolního součtu)
Běžná křestní jména jako „Chase” v názvech bank označená jako PII jmen osob

Každý falešný poplach vyžadoval lidský přezkum. Při 8 % z 5 000 denních souborů to produkovalo tisíce denních úkolů. Žádný nešel automatizovat.

Co ukazuje výzkum ACL

Výzkum ACL 2024 testoval vícejazyčné modely NLP pro detekci PII. Závěr byl jednoznačný. Pouze 5 % vícejazyčných modelů NLP dosáhne F1 skóre vyššího než 85 % pro PII v jiných jazycích než angličtině napříč všemi 24 jazyky EU.

F1 skóre kombinuje přesnost a úplnost detekce (recall). Nízká přesnost znamená mnoho falešných poplachů. Nízký recall znamená mnoho přehlédnutých položek. Oba výsledky jsou špatné. 95% míra selhání při dosažení 85 % F1 ukazuje, jak náročné je vícejazyčné skenování PII v praxi.

Naproti tomu XLM-RoBERTa dosahuje 91,4% mezijazykového F1 pro úlohy PII. Toto číslo pochází z benchmarkingu HuggingFace 2024. Rozdíl mezi 91,4 % a mediánovým modelem vysvětluje, proč standardní nástroje selhávají v rámci vícejazyčného KYC.

Hybridní přístup pro KYC s velkým objemem

Problém falešných poplachů je řešitelný. Tři konstrukční volby ho odstraní.

Regulární výrazy s kontrolou kontrolního součtu: Čísla národních průkazů totožnosti mají pevná pravidla. Německé Steuer-ID, nizozemské BSN a polské PESEL každý používají matematiku kontrolního součtu. Pokud číslo kontrolním součtem neprojde, nejde o průkaz totožnosti. Formát společně s kontrolním součtem přináší téměř nulové falešné poplachy pro tyto identifikátory.

Kontextově citlivý NLP pro jména: Jména osob v souborech KYC se vyskytují na známých místech. Patří sem „Jméno:”, „Příjmení:” a pevně daná pole formuláře. Vyžadování kontextového slova před označením jména snižuje falešné poplachy. Zastaví to spouštění upozornění na jméno osoby názvy firem.

Ladění prahových hodnot podle typu souboru: Soubory KYC se liší od podpůrných e-mailů nebo lékařských poznámek. Každý typ má jiné složení PII. Nastavení prahových hodnot pro každý typ souboru umožňuje týmům přizpůsobit je svým potřebám. KYC s velkým objemem získá vyšší přesnost. Lékařská de-identifikace získá vyšší recall.

Dvoudenní backlog není nevyhnutelnou cenou skenování PII. Je to cena za použití obecných nástrojů na specifický pracovní postup. Řešením je konfigurace, nikoli větší tým.

Náš průvodce souladem s GDPR pokrývá pravidla minimalizace dat. Náš přehled bezpečnosti a souladu s předpisy vysvětluje technické kontroly podporující compliantní pracovní postupy KYC.

Zdroje

Související články

GDPR a shoda

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

KYC ve velkém měřítku: náklady na falešné poplachy

Protichůdná pravidla KYC

Problém dvoudenního backlogu

Co ukazuje výzkum ACL

Hybridní přístup pro KYC s velkým objemem

Zdroje

Související články

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Připraveni chránit svá data?

KYC ve velkém měřítku: náklady na falešné poplachy

Protichůdná pravidla KYC

Problém dvoudenního backlogu

Co ukazuje výzkum ACL

Hybridní přístup pro KYC s velkým objemem

Zdroje

Související články

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow