KYC's modstridende krav
Kend-din-kunde-reglerne (KYC) skaber en reel spænding for fintech-virksomheder. Myndighederne ønsker grundige identitetskontroller. De kræver, at virksomheder indsamler og verificerer personlige dokumenter. Men databeskyttelseslovgivningen trækker i modsat retning. Den kræver, at virksomheder minimerer disse data, når de først er indsamlet.
En bank, der opretter en ny konto, indsamler mange dokumenter. Det inkluderer nationale ID-kort, pas og kørekort. Det inkluderer også adressedokumentation og finansielle papirer. Disse filer indeholder tætte personoplysninger. GDPR, hvidvaskningsregler og banktilsyn kræver alle streng håndtering.
Når disse data videresendes til svindelsystemer eller analyser, gælder yderligere regler. GDPR's dataregler træder i kraft. Personoplysninger skal maskeres eller de-identificeres før enhver sekundær anvendelse.
Problemet med 2-dages arbejdspukkel
En digital bank behandlede 5.000 KYC-ansøgninger dagligt på tværs af 15 EU-lande. Deres PII-scanningstrin forårsagede et alvorligt problem. Falsk positiv-raten var for høj. Gennemgangskøerne voksede til en 2-dages arbejdspukkel.
Årsagen var klar. Deres ML-baserede værktøj markerede ca. 8 % af ikke-PII-tekst som personoplysninger. Hver fil havde mange sider. Det daglige volumen af falske positiver var for stort for teamet at håndtere på én dag. De indhentede aldrig det forsømte.
De falske positiver faldt i tre grupper:
- Firmanavne markeret som personnavne (modellen forvekslede egennavne)
- Referencekoder markeret som ID-numre (ingen kontrolsumvalidering blev anvendt)
- Almindelige fornavne som "Chase" i banknavne markeret som personnavn-PII
Hver falsk positiv krævede menneskelig gennemgang. Med 8 % på tværs af 5.000 daglige filer producerede dette tusindvis af daglige opgaver. Ingen kunne automatiseres væk.
Hvad ACL-forskningen viser
ACL 2024-forskning testede flersprogede NLP-modeller til PII-detektion. Konklusionen var klar. Kun 5 % af flersprogede NLP-modeller når over 85 % F1-score for ikke-engelsk PII på tværs af alle 24 EU-sprog.
F1-score kombinerer præcision og recall. Lav præcision betyder mange falske positiver. Lav recall betyder mange oversete elementer. Begge resultater scorer dårligt. De 95 %, der ikke når 85 % F1, viser, hvor vanskeligt tværsproglig PII-scanning er i praksis.
Til sammenligning opnår XLM-RoBERTa en tværsproglig F1 på 91,4 % for PII-opgaver. Dette tal stammer fra HuggingFace 2024-benchmarks. Forskellen mellem 91,4 % og medianmodellen forklarer, hvorfor standardværktøjer fejler ved flersproget KYC.
Hybrid design til KYC i høj volumen
Problemet med falske positiver kan løses. Tre designvalg retter det.
Regex med kontrolsumvalidering: Nationale ID-numre har faste regler. Tysk Steuer-ID, hollandsk BSN og polsk PESEL bruger alle kontrolsummatematik. Hvis et tal ikke består kontrolsummen, er det ikke et nationalt ID-nummer. Format plus kontrolsum giver næsten nul falske positiver for disse ID-typer.
Kontekstbevidst NLP til navne: Personnavne i KYC-filer optræder på kendte steder. Det inkluderer felterne "Navn:", "Efternavn:" og faste formularfelter. Krav om et kontekstord, før et navn markeres, reducerer falske positiver. Det stopper firmanavne i at udløse personnavn-alarmer.
Tærskelindstilling pr. filtype: KYC-filer adskiller sig fra supportmails eller medicinske noter. Hver type har en forskellig PII-sammensætning. Indstilling af tærskler pr. filtype giver teams mulighed for at tilpasse til deres behov. KYC i høj volumen får højere præcision. Medicinsk de-identifikation får højere recall.
Den 2-dages arbejdspukkel er ikke en uundgåelig omkostning ved PII-scanning. Det er en omkostning ved at bruge generiske værktøjer på en specifik arbejdsgang. Løsningen er konfiguration, ikke et større team.
Vores GDPR-compliance vejledning dækker regler for dataminimering. Vores sikkerhed og compliance-oversigt forklarer de tekniske kontroller, der understøtter compliant KYC-arbejdsgange.