Конкурентните правила на KYC

Правилата за Познај го твојот клиент (KYC) создаваат реална тензија за финтек компаниите. Регулаторите сакаат темелни проверки на идентитетот. Тие бараат компаниите да собираат и верификуваат лични документи. Но законите за податоци притискаат во спротивна насока. Тие бараат компаниите да ги минимизираат тие податоци откако ќе бидат собрани.

Банка која отвора нова сметка собира многу документи. Тие вклучуваат национални лични карти, пасоши и возачки дозволи. Исто така собира доказ за адреса и финансиски документи. Овие датотеки содржат густи лични податоци. GDPR, AML правилата и банкарските надзорници бараат строго ракување.

Кога тие податоци се движат кон системи за измами или аналитика, се применуваат дополнителни правила. Влегуваат правилата за податоци на GDPR. Личните податоци мора да бидат маскирани или деидентификувани пред секоја секундарна употреба.

Проблемот со задоцнување од 2 дена

Дигитална банка обработуваше 5.000 KYC апликации дневно во 15 земји на ЕУ. Нивниот чекор за скенирање PII предизвика сериозен проблем. Стапката на лажни позитиви беше премногу висока. Редовите за прегледување растеа додека не достигнаа задоцнување од 2 дена.

Коренската причина беше јасна. Нивната ML-базирана алатка означуваше приближно 8% од не-PII текстот како лични податоци. Секоја датотека имаше многу страници. Дневниот обем на лажни позитиви беше премногу голем за тимот да го расчисти за еден ден. Тие постојано заостануваа.

Лажните позитиви спаѓаа во три групи:

Имиња на компании означени како лични имиња (моделот ги мешаше сопствените именки)
Референтни кодови означени како ID броеви (не беше користена проверка на контролна сума)
Вообичаени имиња како "Chase" во имиња на банки означени како PII на лично ime

Секој лажен позитив бараше прегледување од човек. При 8% на 5.000 дневни датотеки, ова произведуваше илјадници дневни задачи. Ниту една не можеше да биде автоматизирана.

Што покажува истражувањето на ACL

Истражувањето на ACL 2024 ги тестираше мултилингвалните NLP модели за откривање PII. Наодот беше јасен. Само 5% од мултилингвалните NLP модели постигнуваат подобар F1-резултат од 85% за не-англиски PII низ сите 24 јазици на ЕУ.

F1-резултатот ги комбинира прецизноста и повикувањето. Ниска прецизност значи многу лажни позитиви. Ниско повикување значи многу пропуштени ставки. И двата исходи лошо се оценуваат. Стапката на неуспех од 95% за достигнување 85% F1 покажува колку е тешко меѓујазичното скенирање на PII во пракса.

Наспроти тоа, XLM-RoBERTa постигнува 91,4% меѓујазичен F1 за PII задачи. Оваа бројка е од мерењето на HuggingFace 2024. Јазот помеѓу 91,4% и медијалниот модел објаснува зошто алатките со стандардна конфигурација не успеваат при мултилингвален KYC.

Хибриден дизајн за KYC со голем обем

Проблемот со лажните позитиви е решлив. Три дизајнерски избори го поправаат.

Регуларни изрази со проверка на контролна сума: Националните ID броеви имаат фиксни правила. Германскиот Steuer-ID, холандскиот BSN и полскиот PESEL секој користи математика на контролна сума. Ако бројот не ја поминува контролната сума, тој не е национален ID. Форматот плус контролната сума произведуваат скоро нула лажни позитиви за овие ID-а.

Контекстно-свесен NLP за имиња: Личните имиња во KYC датотеките се јавуваат на познати места. Тие вклучуваат "Ime:", "Презиме:" и поставени полиња на формулари. Барањето контекстуален збор пред означување на ime ги намалува лажните позитиви. Ги спречува имињата на компании да активираат предупредувања за лично ime.

Прилагодување на прагот по тип датотека: KYC датотеките се разликуваат од е-поштата за поддршка или медицинските белешки. Секој тип има различна мешавина на PII. Поставувањето на прагови по тип датотека им овозможува на тимовите да се прилагодат на нивните потреби. KYC со голем обем добива повисока прецизност. Медицинската деидентификација добива повисоко повикување.

Задоцнувањето од 2 дена не е неизбежен трошок на скенирање PII. Тоа е трошок на користење генерички алатки за специфичен работен тек. Поправката е поставување, не поголем тим.

Нашиот водич за усогласување со GDPR ги покрива правилата за минимизирање на податоци. Нашиот преглед на безбедност и усогласување ги објаснува техничките контроли кои поддржуваат усогласени KYC работни текови.

Извори

Поврзани статии

GDPR & Усогласеност

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

Започнете бесплатен пробен период Погледнете ги карактеристиките

KYC во голем обем: Трошоците на лажните позитиви

Конкурентните правила на KYC

Проблемот со задоцнување од 2 дена

Што покажува истражувањето на ACL

Хибриден дизајн за KYC со голем обем

Извори

Поврзани статии

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Подготвени да ги заштитите вашите податоци?

KYC во голем обем: Трошоците на лажните позитиви

Конкурентните правила на KYC

Проблемот со задоцнување од 2 дена

Што покажува истражувањето на ACL

Хибриден дизајн за KYC со голем обем

Извори

Поврзани статии

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Подготвени да ги заштитите вашите податоци?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow