Konkurencyjne wymagania dotyczące zgodności KYC
Zgodność z Know Your Customer (KYC) tworzy specyficzne napięcie w operacjach fintech: regulatorzy wymagają dokładnej weryfikacji tożsamości — zbierania i weryfikacji dokumentów osobistych — podczas gdy przepisy dotyczące ochrony danych wymagają minimalizacji i ochrony tych danych osobowych po ich zebraniu.
Cyfrowy bank, który kończy KYC dla nowego wnioskodawcy konta, zbiera dokumenty tożsamości (karty identyfikacyjne, paszporty, prawo jazdy), dowody adresu oraz dokumenty weryfikacji finansowej. Te dokumenty zawierają wysokie stężenia dokładnie tych danych osobowych, które przepisy GDPR, AML oraz organy nadzoru bankowego wymagają, aby były przetwarzane z najwyższymi środkami ochrony danych.
Gdy zebrane dane są używane do analizy, dzielone z systemami wykrywania oszustw lub przetwarzane do szkolenia modeli ML, zasady minimalizacji danych i ograniczenia celu GDPR wymagają, aby dane osobowe były anonimizowane lub pseudonimizowane przed użyciem w procesach wtórnych.
Problem 2-dniowego zaległości
Platforma bankowości cyfrowej przetwarzająca 5,000 wniosków KYC dziennie w 15 krajach europejskich napotkała specyficzny problem operacyjny z ich krokiem wykrywania PII: wskaźnik fałszywych pozytywów w ich zautomatyzowanym systemie wykrywania tworzył kolejki przeglądowe, które wydłużały się do 2-dniowego zaległości.
Źródło zaległości: ich narzędzie do wykrywania PII oparte na ML oznaczało około 8% tekstu niebędącego PII w dokumentach KYC jako potencjalne dane osobowe. Przy 5,000 wnioskach dziennie, z każdym wnioskiem zawierającym wiele dokumentów liczących dziesiątki stron, objętość fałszywych pozytywów przekraczała to, co zespół ds. zgodności mógł przeglądać w tym samym dniu roboczym.
Fałszywe pozytywy były systematyczne i przewidywalne:
- Nazwy firm w dokumentach adresowych oznaczane jako imiona osób (rozpoznawacz nazw własnych modelu ML pomylił rzeczowniki własne)
- Numery referencyjne i kody aplikacji oznaczane jako potencjalne numery identyfikacyjne (dopasowanie wzorców numerycznych bez walidacji sumy kontrolnej)
- "Chase" i podobne powszechne imiona pojawiające się w nazwach instytucji oznaczane jako PII imion osób
Każdy fałszywy pozytyw wymagał przeglądu przez człowieka w celu potwierdzenia lub odrzucenia. Przy wskaźniku fałszywych pozytywów wynoszącym 8% w 5,000 wnioskach, przekładało się to na tysiące codziennych zadań przeglądowych, których nie można było zautomatyzować.
Co pokazują badania ACL
Badania ACL 2024 oceniające wielojęzyczne modele NLP do wykrywania PII wykazały, że tylko 5% wielojęzycznych modeli NLP osiąga lepszy niż 85% wynik F1 dla wykrywania PII w językach nieangielskich we wszystkich 24 językach UE.
Wynik F1 łączy precyzję i przypomnienie — model o wysokim przypomnieniu, ale niskiej precyzji (wiele fałszywych pozytywów) osiąga słabe wyniki, podobnie jak model o wysokiej precyzji, ale niskim przypomnieniu (wiele fałszywych negatywów). Wskaźnik 95% niepowodzenia w osiągnięciu 85% F1 we wszystkich 24 językach UE odzwierciedla trudność w budowaniu modelu, który jest zarówno dokładny, jak i wszechstronny w pełnym zestawie języków UE.
Dla kontrastu, XLM-RoBERTa osiąga 91.4% międzyjęzykowy wynik F1 dla zadań wykrywania PII, według benchmarków HuggingFace 2024. Różnica między 91.4% a medianą wydajności wielojęzycznych modeli NLP wyjaśnia, dlaczego wiele organizacji fintech napotyka problemy operacyjne przy stosowaniu gotowych rozwiązań wykrywania wielojęzycznego w procesach KYC.
Hybrydowe rozwiązanie dla KYC o dużej objętości
Dla operacji KYC przetwarzających dużą ilość dokumentów tożsamości w różnych jurysdykcjach UE, problem fałszywych pozytywów można rozwiązać poprzez wybory architektoniczne:
Strukturalny regex identyfikatora z walidacją sumy kontrolnej: Numery identyfikacyjne (niemiecki Steuer-ID, holenderski BSN, polski PESEL itd.) mają deterministyczne algorytmy walidacji. Wykrywanie oparte na formacie + walidacji sumy kontrolnej produkuje niemal zerowe wskaźniki fałszywych pozytywów dla tych identyfikatorów — numer referencyjny, który nie przechodzi algorytmu sumy kontrolnej krajowego ID, nie jest krajowym ID, niezależnie od jego długości numerycznej.
NLP uwzględniające kontekst dla imion i PII w wolnym tekście: Imiona osób w dokumentach tożsamości pojawiają się w przewidywalnych kontekstach ("Imię:", "Nazwisko:", konkretne pola formularzy). Wymagania dotyczące słów kontekstowych dla wykryć NLP zmniejszają fałszywe pozytywy z ciągów podobnych do imion pojawiających się w kontekstach niebędących imionami (nazwy instytucji, etykiety referencyjne).
Konfiguracja progów według typu dokumentu: Dokumenty KYC mają różne rozkłady PII niż e-maile wsparcia klienta czy notatki kliniczne. Konfigurowanie progów wykrywania osobno dla typów dokumentów — wyższa precyzja dla przetwarzania KYC o dużej objętości, wyższe przypomnienie dla klinicznej deidentyfikacji — pozwala na dostosowanie do wymagań operacyjnych, zamiast akceptować domyślną opcję uniwersalną.
Problem zaległości nie jest kosztem automatyzacji PII. Jest to koszt korzystania z narzędzi, które nie są skonfigurowane do wymagań operacyjnych KYC o dużej objętości.
Źródła: