Конкурентните правила на KYC
Правилата за Познај го твојот клиент (KYC) создаваат реална тензија за финтек компаниите. Регулаторите сакаат темелни проверки на идентитетот. Тие бараат компаниите да собираат и верификуваат лични документи. Но законите за податоци притискаат во спротивна насока. Тие бараат компаниите да ги минимизираат тие податоци откако ќе бидат собрани.
Банка која отвора нова сметка собира многу документи. Тие вклучуваат национални лични карти, пасоши и возачки дозволи. Исто така собира доказ за адреса и финансиски документи. Овие датотеки содржат густи лични податоци. GDPR, AML правилата и банкарските надзорници бараат строго ракување.
Кога тие податоци се движат кон системи за измами или аналитика, се применуваат дополнителни правила. Влегуваат правилата за податоци на GDPR. Личните податоци мора да бидат маскирани или деидентификувани пред секоја секундарна употреба.
Проблемот со задоцнување од 2 дена
Дигитална банка обработуваше 5.000 KYC апликации дневно во 15 земји на ЕУ. Нивниот чекор за скенирање PII предизвика сериозен проблем. Стапката на лажни позитиви беше премногу висока. Редовите за прегледување растеа додека не достигнаа задоцнување од 2 дена.
Коренската причина беше јасна. Нивната ML-базирана алатка означуваше приближно 8% од не-PII текстот како лични податоци. Секоја датотека имаше многу страници. Дневниот обем на лажни позитиви беше премногу голем за тимот да го расчисти за еден ден. Тие постојано заостануваа.
Лажните позитиви спаѓаа во три групи:
- Имиња на компании означени како лични имиња (моделот ги мешаше сопствените именки)
- Референтни кодови означени како ID броеви (не беше користена проверка на контролна сума)
- Вообичаени имиња како "Chase" во имиња на банки означени како PII на лично ime
Секој лажен позитив бараше прегледување од човек. При 8% на 5.000 дневни датотеки, ова произведуваше илјадници дневни задачи. Ниту една не можеше да биде автоматизирана.
Што покажува истражувањето на ACL
Истражувањето на ACL 2024 ги тестираше мултилингвалните NLP модели за откривање PII. Наодот беше јасен. Само 5% од мултилингвалните NLP модели постигнуваат подобар F1-резултат од 85% за не-англиски PII низ сите 24 јазици на ЕУ.
F1-резултатот ги комбинира прецизноста и повикувањето. Ниска прецизност значи многу лажни позитиви. Ниско повикување значи многу пропуштени ставки. И двата исходи лошо се оценуваат. Стапката на неуспех од 95% за достигнување 85% F1 покажува колку е тешко меѓујазичното скенирање на PII во пракса.
Наспроти тоа, XLM-RoBERTa постигнува 91,4% меѓујазичен F1 за PII задачи. Оваа бројка е од мерењето на HuggingFace 2024. Јазот помеѓу 91,4% и медијалниот модел објаснува зошто алатките со стандардна конфигурација не успеваат при мултилингвален KYC.
Хибриден дизајн за KYC со голем обем
Проблемот со лажните позитиви е решлив. Три дизајнерски избори го поправаат.
Регуларни изрази со проверка на контролна сума: Националните ID броеви имаат фиксни правила. Германскиот Steuer-ID, холандскиот BSN и полскиот PESEL секој користи математика на контролна сума. Ако бројот не ја поминува контролната сума, тој не е национален ID. Форматот плус контролната сума произведуваат скоро нула лажни позитиви за овие ID-а.
Контекстно-свесен NLP за имиња: Личните имиња во KYC датотеките се јавуваат на познати места. Тие вклучуваат "Ime:", "Презиме:" и поставени полиња на формулари. Барањето контекстуален збор пред означување на ime ги намалува лажните позитиви. Ги спречува имињата на компании да активираат предупредувања за лично ime.
Прилагодување на прагот по тип датотека: KYC датотеките се разликуваат од е-поштата за поддршка или медицинските белешки. Секој тип има различна мешавина на PII. Поставувањето на прагови по тип датотека им овозможува на тимовите да се прилагодат на нивните потреби. KYC со голем обем добива повисока прецизност. Медицинската деидентификација добива повисоко повикување.
Задоцнувањето од 2 дена не е неизбежен трошок на скенирање PII. Тоа е трошок на користење генерички алатки за специфичен работен тек. Поправката е поставување, не поголем тим.
Нашиот водич за усогласување со GDPR ги покрива правилата за минимизирање на податоци. Нашиот преглед на безбедност и усогласување ги објаснува техничките контроли кои поддржуваат усогласени KYC работни текови.