Samkeppnisreglur KYC
KYC-reglur (Know Your Customer) skapa raunverulegt spennu fyrir fintech-fyrirtæki. Eftirlitsaðilar vilja ítarlegar auðkennisathuganir. Þeir krefjast þess að fyrirtæki safni og staðfesti persónuleg skjöl. En gagnalöggjöf þrýstir á hinn veginn. Þær krefjast þess að fyrirtæki lágmarki þau gögn þegar þau hafa verið safnað.
Banki sem opnar nýjan reikning safnar mörgum skjölum. Þar á meðal eru þjóðauðkennisskírteini, vegabréf og ökuskírteini. Það safnar einnig staðfestingu á heimilisfangi og fjárlagaskjölum. Þessar skrár innihalda þétt persónuleg gögn. GDPR, peningaþvættisreglur og bankeftirlitsaðilar krefjast allir strangar meðhöndlunar.
Þegar þau gögn fara til svikaskerðingarkerfis eða greiningar eiga við viðbótarreglur. GDPR-gagnareglumar koma til framkvæmda. Persónuleg gögn verða að vera dulkóðuð eða nafnleysisfærð áður en önnur notkun á sér stað.
2 daga biðröðarvandinn
Stafrænn banki vann 5.000 KYC-umsóknir daglega í 15 ESB-löndum. PII-skönnunarskrefið þeirra olli alvarlegum vandamálum. Hlutfall rangra jákvæðra niðurstaðna var of hátt. Endurskoðunarbiðraðir uxu þar til þær náðu 2 daga biðröð.
Rótarorsökin var skýr. ML-byggt tól þeirra merkti um 8% af öðrum texta en PII sem persónuleg gögn. Hverja skrá hafði margar síður. Dagleg magn rangra jákvæðna var of stórt fyrir teymið til að hreinsa á einum degi. Þeir hallaðist stöðugt aftur á bak.
Rangar jákvæðar niðurstöður féllu í þrjá flokka:
- Fyrirtækjanöfn merkt sem persónunöfn (líkanið ruglaðist saman sérnöfn)
- Tilvísunarkóðar merktir sem auðkennisnúmer (engin eftirlitsstafaleit var notuð)
- Algeng fornöfn eins og "Chase" í bankheiti merkt sem persónuauðkenning
Hverja ranga jákvæða niðurstöðu þurfti mannlega yfirfærslu. Við 8% yfir 5.000 daglegum skrám framleiddi þetta þúsundir daglegra verkefna. Ekkert þeirra gat verið sjálfvirkgert.
Hvað ACL-rannsóknirnar sýna
ACL 2024-rannsóknir prófuðu margmálalegar NLP-líkön fyrir PII-greiningu. Niðurstaðan var skörp. Aðeins 5% margmálalegra NLP-líkana ná betri en 85% F1-niðurstöðu fyrir PII sem er ekki á ensku yfir öll 24 ESB-tungumál.
F1-niðurstaðan sameinar nákvæmni og endurköllun. Lág nákvæmni þýðir margar rangar jákvæðar niðurstöður. Lág endurköllun þýðir mörg vanfundin atriði. Báðar útkomur skora illa. 95% bilunartíðni til að ná 85% F1 sýnir hversu erfitt þvermálalegt PII-skönnun er í reynd.
Þvert á móti nær XLM-RoBERTa 91,4% þvermálalegu F1 fyrir PII-verkefni. Þetta tala er úr HuggingFace 2024-viðmiðunarmælingum. Bilið milli 91,4% og meðallíkansins útskýrir hvers vegna tilbúin tól bila í margmálalegum KYC.
Blönduð hönnun fyrir hámagn-KYC
Vandinn með rangar jákvæðar niðurstöður er leysanlegur. Þrjár hönnunarákvarðanir laga hann.
Regex með eftirlitsstafafrátalningu: Þjóðauðkenni hafa fastar reglur. Þýsk Steuer-ID, hollensku BSN og pólska PESEL nota eftirlitsstafafræðilegar reikningar. Ef númer stenst ekki eftirlitsstafann er það ekki þjóðauðkenni. Snið ásamt eftirlitsstafa framleiðir nánast engar rangar jákvæðar niðurstöður fyrir þau auðkenni.
Samhengismeðvitar NLP fyrir nöfn: Persónunöfn í KYC-skrám birtast á þekktum stöðum. Þessar innihalda "Nafn:", "Eftirnafn:" og fastasett skráarreiti. Þörf á samhengisorði áður en nafn er merkt dregur úr röngum jákvæðum niðurstöðum. Það kemur í veg fyrir að fyrirtækjanöfn kveiki persónunafnvísbendingar.
Þreskuldsaðlögun eftir skráargerð: KYC-skrár eru frábrugðnar þjónustupóstskeytum eða lækningaskrám. Hverje gerð hefur mismunandi PII-blöndu. Að stilla þreskuldana eftir skráargerð gerir teymum kleift að stilla eftir þörfum þeirra. Hámagn-KYC fær hærri nákvæmni. Læknisfræðileg nafnleysisfærsla fær hærri endurköllun.
2 daga biðröðin er ekki óhjákvæmilegur kostnaður PII-skönnunar. Það er kostnaður þess að nota almenn tól á sérstakt verkflæði. Lagfæringin er uppsetning, ekki stærra teymi.
GDPR-samræmisleiðbeiningar fjalla um reglur um gagnahámarkun. Öryggis- og samræmisyfirlit útskýrir tæknilegar stjórnir sem styðja samræmt KYC-verkflæði.