anonym.legal
Назад към блогаGDPR и съответствие

Обработка на KYC документи в мащаб: Защо фалшивите...

Дигитална банка, обработваща 5000 KYC заявления дневно в 15 държави от ЕС, установи, че тяхната стъпка за откриване на PII създава 2-дневно изоставане.

March 28, 20267 мин. четене
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

Конкуриращите се изисквания за съответствие на KYC

Съответствието с Know Your Customer (KYC) създава специфично напрежение във финтех операциите: регулаторите изискват цялостна проверка на самоличността — събиране и проверка на лични документи — докато разпоредбите за защита на данните изискват минимизиране и защита на тези лични данни, след като бъдат събрани.

Дигитална банка, която попълва KYC за кандидат за нов акаунт, събира документи за самоличност (национални лични карти, паспорти, шофьорски книжки), доказателство за адрес и документи за финансова проверка. Тези документи съдържат високи концентрации точно на личните данни, които GDPR, разпоредбите за AML и органите за банков надзор изискват да бъдат обработвани с най-строгите мерки за защита на данните.

Когато тези събрани данни се използват за анализи, споделят се със системи за откриване на измами или се обработват за обучение по модел на машинно обучение, принципите за минимизиране на данните и ограничаване на целта на GDPR изискват личните данни да бъдат анонимизирани или псевдонимизирани преди използване във вторични процеси.

Проблемът с 2-дневното изоставане

Платформа за дигитално банкиране, обработваща 5000 KYC заявления дневно в 15 европейски държави се сблъска със специфичен оперативен проблем с тяхната стъпка за откриване на PII: честотата на фалшивите положителни резултати в тяхната автоматизирана система за откриване създаваше опашки за преглед, които се простираха до 2-дневно изоставане.

Източникът на изоставането: техният базиран на ML инструмент за откриване на PII маркира приблизително 8% от текста, който не е PII, в KYC документи като потенциални лични данни. С 5000 приложения на ден, всяко приложение, съдържащо множество документи с общо десетки страници, обемът на фалшивите положителни резултати надвишава това, което екипът за съответствие може да прегледа в рамките на същия работен ден.

Фалшивите положителни резултати са систематични и предвидими:

  • Имена на фирми в адресни документи, маркирани като имена на лица (разпознавателят на име на модела ML съчетава собствени съществителни)
  • Референтни номера и кодове на приложения, маркирани като потенциални идентификационни номера (съвпадение на числови шаблони без проверка на контролната сума)
  • „Chase“ и подобни често срещани имена, които се появяват в имена на институции, маркирани като PII за име на човек

Всеки фалшив положителен резултат изисква проверка от човек за потвърждаване или отхвърляне. При 8% процент на фалшиви положителни резултати в 5000 приложения това доведе до хиляди ежедневни задачи за преглед, които не могат да бъдат автоматизирани.

Какво показва изследването на ACL

Проучване на ACL 2024, оценяващо многоезични модели NLP за откриване на PII, установи, че само 5% от многоезичните модели NLP постигат по-добър от 85% F1-резултат за откриване на неанглийски PII във всичките 24 езика на ЕС.

F1-резултатът съчетава прецизност и припомняне — модел с високо припомняне, но ниска прецизност (много фалшиви положителни резултати) дава лош резултат, както и модел с висока прецизност, но ниско припомняне (много фалшиви отрицания). Процентът на неуспех от 95% за достигане на 85% F1 за всички 24 езика на ЕС отразява трудността при изграждането на модел, който е едновременно точен и изчерпателен за целия набор от езици на ЕС.

За разлика от това, XLM-RoBERTa постига 91,4% междуезичен F1 за задачи за откриване на PII, според сравнителния анализ на HuggingFace 2024. Разликата между 91,4% и средната производителност на многоезичните NLP модели обяснява защо много финтех организации се сблъскват с оперативни проблеми, когато прилагат готово многоезично откриване към KYC работни потоци.

Хибридното решение за KYC с голям обем

За операциите на KYC, обработващи големи обеми документи за самоличност в множество юрисдикции на ЕС, проблемът с фалшивите положителни резултати е разрешим чрез архитектурен избор:

Регулярен израз на структуриран идентификатор с валидиране на контролна сума: Националните идентификационни номера (немски Steuer-ID, холандски BSN, полски PESEL и др.) имат детерминистични алгоритми за валидиране. Откриването, базирано на валидиране на формат + контролна сума, води до почти нулев процент фалшиви положителни резултати за тези идентификатори — референтен номер, който не преминава алгоритъма за контролна сума на националния идентификатор, не е национален идентификатор, независимо от цифровата му дължина.

Контекстно съобразен NLP за имена и свободен текст PII: Имената на лицата в документите за самоличност се появяват в предвидими контексти („Име:“, „Фамилия:“, специфични полета на формуляра). Изискванията за контекстни думи за NLP откривания намаляват фалшивите положителни резултати от низове, подобни на имена, появяващи се в контексти без имена (имена на институции, референтни етикети).

**Прагова конфигурация по тип документ: ** KYC документите имат различно разпространение на PII от имейлите за поддръжка на клиенти или клиничните бележки. Конфигурирането на прагове за откриване поотделно за типове документи — по-висока прецизност за KYC обработка на голям обем, по-високо извикване за клинична деидентификация — позволява настройка към оперативните изисквания, вместо да се приема универсална настройка по подразбиране.

Проблемът с изоставането не е разход за автоматизиране на PII. Това са разходи за използване на инструменти, които не са конфигурирани за оперативните изисквания на многоезичния KYC в голям обем.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.