A KYC egymásnak feszülő szabályai
Az Ismerd meg ügyfeleidet (KYC) szabályok valódi feszültséget teremtenek a fintech vállalkozások számára. A szabályozók alapos személyazonosság-ellenőrzést várnak el, és megkövetelik a cégektől a személyes dokumentumok gyűjtését és hitelesítését. Az adatvédelmi jogszabályok azonban épp ellentétes irányba húznak: megkövetelik a cégektől, hogy a begyűjtött adatokat minimalizálják.
Egy új számlát nyitó bank számos dokumentumot gyűjt be. Ezek közé tartoznak a személyi igazolványok, útlevelek és jogosítványok, valamint a lakcímigazolások és pénzügyi iratok. Ezek a fájlok sűrű személyes adatokat tartalmaznak. A GDPR, a pénzmosás elleni (AML) szabályok és a bankfelügyeletek mind szigorú kezelést követelnek.
Amikor ezek az adatok csalásfelderítő rendszerekbe vagy elemzésekbe kerülnek, további szabályok lépnek életbe. Alkalmazni kell a GDPR adatszabályait: a személyes adatokat maszkolni vagy de-azonosítani kell minden másodlagos felhasználás előtt.
A kétnapos hátralékok problémája
Egy digitális bank napi 5000 KYC-kérelmet dolgozott fel 15 EU-s országban. A PII-szkennelési lépés komoly problémát okozott: a téves pozitívok aránya túl magas volt. A felülvizsgálati sorok addig nőttek, míg kétnapos hátralékot értek el.
A kiváltó ok egyértelmű volt. Az ML-alapú eszköz a nem PII-tartalmak körülbelül 8%-át személyes adatként jelölte meg. Minden fájl több oldalból állt. A napi téves pozitív mennyiség túl nagy volt ahhoz, hogy a csapat egy nap alatt felszámolja. Folyamatosan lemaradtak.
A téves pozitívok három csoportba estek:
- Cégnevet személy nevként jelölt meg (a modell összetévesztette a tulajdonneveket)
- Referenciakövetőkódokat azonosítószámként jelölt meg (nem alkalmaztak ellenőrzőösszeg-vizsgálatot)
- Közös keresztneveket, mint a „Chase” a banki nevekben, PII-ként jelölt meg
Minden egyes téves pozitív emberi felülvizsgálatot igényelt. 8%-os arány mellett, napi 5000 fájlnál, ez naponta több ezer feladatot termelt – egyiket sem lehetett automatizálással megoldani.
Mit mutat az ACL kutatás
Az ACL 2024-es kutatása többnyelvű NLP-modellek PII-felderítési teljesítményét vizsgálta. Az eredmény egyértelmű volt: a többnyelvű NLP-modellek csupán 5%-a éri el a 85%-nál jobb F1-pontszámot a nem angol PII esetén mind a 24 EU-s nyelven.
Az F1-pontszám a pontosságot és a visszahívást kombinálja. Alacsony pontosság sok téves pozitívat jelent. Alacsony visszahívás sok kihagyott elemet jelent. Mindkét kimenet gyenge pontszámot ad. A 85%-os F1 elérésének 95%-os sikertelenségi aránya mutatja, milyen nehéz a keresztnyelvű PII-szkennelés a gyakorlatban.
Ezzel szemben az XLM-RoBERTa 91,4%-os keresztnyelvű F1-pontszámot ér el PII-feladatoknál – ez a HuggingFace 2024-es teljesítménymérő adataiból származik. A 91,4% és a medián modell közötti különbség magyarázza, miért vallanak kudarcot a készen kapható eszközök a többnyelvű KYC-feldolgozásban.
Hibrid tervezés a nagy mennyiségű KYC-hez
A téves pozitívok problémája megoldható. Három tervezési döntés orvosolja.
Regex ellenőrzőösszeg-vizsgálattal: A nemzeti azonosítószámoknak rögzített szabályai vannak. A német Steuer-ID, a holland BSN és a lengyel PESEL mind ellenőrzőösszeg-matematikát alkalmaz. Ha egy szám nem állja ki az ellenőrzőösszeg-vizsgálatot, nem nemzeti azonosítószám. A formátum és az ellenőrzőösszeg kombinációja szinte nulla téves pozitívot ad ezekre az azonosítókra.
Kontextustudatos NLP nevekhez: A személynevek a KYC-fájlokban ismert helyeken jelennek meg, például a „Név:”, „Vezetéknév:” és meghatározott űrlapmezők után. Ha kontextusszó jelenléte szükséges a név megjelöléséhez, az csökkenti a téves pozitívokat, és megakadályozza, hogy cégnév személynév-riasztást váltson ki.
Küszöbérték-hangolás fájltípusonként: A KYC-fájlok különböznek a támogatási e-mailektől vagy az orvosi feljegyzésektől. Minden típusnak más a PII-összetétele. A fájltípusonkénti küszöbérték-beállítás lehetővé teszi, hogy a csapatok saját igényeikhez igazítsák a rendszert. A nagy volumenű KYC magasabb pontosságot kap, az orvosi de-azonosítás magasabb visszahívást.
A kétnapos hátralékok nem a PII-szkennelés elkerülhetetlen költségei – hanem az általános eszközök specifikus munkafolyamatra való alkalmazásának következményei. A megoldás a helyes beállítás, nem egy nagyobb csapat.
A GDPR megfelelőségi útmutatónk az adatminimalizálási szabályokat tárgyalja. A biztonsági és megfelelőségi áttekintő ismerteti a megfelelő KYC-munkafolyamatokat támogató technikai kontrolokat.