Takaisin BlogiinGDPR & Vaatimustenmukaisuus

KYC-dokumenttien käsittely suuressa mittakaavassa...

Digitaalinen pankki, joka käsittelee 5 000 KYC-hakemusta päivittäin 15 EU-maassa, huomasi, että heidän PII-tunnistusvaiheensa aiheutti 2 päivän...

March 28, 20267 min lukuaika
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

KYC:n kilpailevat vaatimukset

Know Your Customer (KYC) -vaatimukset luovat erityistä jännitettä fintech-toiminnassa: sääntelyviranomaiset vaativat perusteellista henkilöllisyyden vahvistamista — henkilökohtaisten asiakirjojen keräämistä ja vahvistamista — samalla kun tietosuojalainsäädäntö vaatii, että kerättyä henkilötietoa minimoidaan ja suojataan.

Digitaalinen pankki, joka suorittaa KYC:n uuden tilihakijan osalta, kerää henkilöllisyysasiakirjoja (kansalliset henkilökortit, passit, ajokortit), osoitetodistuksia ja taloudellisia vahvistusasiakirjoja. Nämä asiakirjat sisältävät suuria määriä juuri niitä henkilötietoja, joita GDPR, AML-säännökset ja pankkivalvontaviranomaiset vaativat käsiteltäväksi tiukimpien tietosuojatoimenpiteiden mukaisesti.

Kun kerättyä tietoa käytetään analytiikassa, jaetaan petosten tunnistusjärjestelmille tai käsitellään ML-mallin koulutusta varten, GDPR:n tietojen minimointia ja käyttötarkoituksen rajoittamista koskevat periaatteet edellyttävät, että henkilötiedot anonymisoidaan tai pseudonymisoidaan ennen käyttöä toissijaisissa prosesseissa.

2 päivän viivästyksen ongelma

Digitaalinen pankki, joka käsittelee 5 000 KYC-hakemusta päivittäin 15 Euroopan maassa, kohtasi erityisen operatiivisen ongelman PII-tunnistusvaiheessaan: automaattisen tunnistusjärjestelmän väärien positiivisten tulosten määrä aiheutti tarkastustöitä, jotka laajentuivat 2 päivän viivästykseen.

Viivästyksen lähde: heidän ML-pohjainen PII-tunnistustyökalunsa merkitsi noin 8 % ei-PII-tekstistä KYC-asiakirjoissa mahdollisena henkilötietona. 5 000 hakemuksen päivässä, joista jokaisessa on useita asiakirjoja, jotka yhteensä sisältävät kymmeniä sivuja, väärien positiivisten tulosten määrä ylitti sen, mitä vaatimustenmukaisuustiimi pystyi tarkastamaan saman liiketoimintapäivän aikana.

Väärät positiiviset tulokset olivat systemaattisia ja ennakoitavia:

  • Yritysnimiä osoitetodistuksissa merkittiin henkilön nimiksi (ML-mallin nimentunnistin sekoitti erisnimet)
  • Viitenumerot ja hakemuskoodit merkittiin mahdollisina henkilötunnuksina (numeropohjainen kaavan tunnistus ilman tarkistussummaa)
  • "Chase" ja vastaavat yleiset etunimet, jotka esiintyivät laitosten nimissä, merkittiin henkilön nimen PII:ksi

Jokainen väärä positiivinen tulos vaati ihmisen tarkastusta vahvistamiseksi tai hylkäämiseksi. 8 %:n väärien positiivisten tulosten määrä 5 000 hakemuksessa tarkoitti tuhansia päivittäisiä tarkastustehtäviä, joita ei voitu automatisoida.

Mitä ACL-tutkimus osoittaa

ACL 2024 -tutkimus, joka arvioi monikielisiä NLP-malleja PII-tunnistuksessa, havaitsi, että vain 5 % monikielisistä NLP-malleista saavuttaa yli 85 % F1-tuloksen ei-englanninkielisessä PII-tunnistuksessa kaikilla 24 EU-kielellä.

F1-tulos yhdistää tarkkuuden ja palautuksen — malli, jolla on korkea palautus mutta alhainen tarkkuus (monia vääriä positiivisia), saa huonon tuloksen, kuten myös malli, jolla on korkea tarkkuus mutta alhainen palautus (monia vääriä negatiivisia). 95 %:n epäonnistumisaste saavuttaa 85 % F1 kaikilla 24 EU-kielellä heijastaa vaikeutta rakentaa mallia, joka on sekä tarkka että kattava koko EU-kielivalikoimassa.

Vertailun vuoksi XLM-RoBERTa saavuttaa 91,4 % ristiin kielellisen F1 PII-tunnistustehtävissä, HuggingFace 2024 -vertailun mukaan. Ero 91,4 %:n ja monikielisten NLP-mallien mediaanisuorituskyvyn välillä selittää, miksi monet fintech-organisaatiot kohtaavat operatiivisia ongelmia soveltaessaan valmiita monikielisiä tunnistuksia KYC-työnkulkuun.

Hybridiratkaisu suurille KYC-volyymeille

KYC-toiminnoille, jotka käsittelevät suuria määriä henkilöllisyysasiakirjoja useissa EU:n lainkäyttöalueissa, väärien positiivisten ongelma on ratkaistavissa arkkitehtonisten valintojen avulla:

Rakenteellinen tunnistimen regex tarkistussummalla: Kansalliset henkilönumerot (Saksan Steuer-ID, Alankomaiden BSN, Puolan PESEL jne.) omaavat deterministiset vahvistusalgoritmit. Tunnistus, joka perustuu muotoon + tarkistussumman vahvistamiseen, tuottaa lähes nollan väärien positiivisten tulosten määrän näille tunnisteille — viitenumero, joka ei läpäise kansallisen henkilönumeron tarkistussumma-algoritmia, ei ole kansallinen henkilönumero, riippumatta sen numeerisesta pituudesta.

Kontekstiin perustuva NLP nimille ja vapaatekstille PII: Henkilön nimet henkilöllisyysasiakirjoissa esiintyvät ennakoitavissa konteksteissa ("Nimi:", "Sukunimi:", tietyt lomakekentät). Kontekstisanojen vaatimukset NLP-tunnistuksille vähentävät väärien positiivisten tulosten määrää nimen kaltaisista merkkijonoista, jotka esiintyvät ei-nimellisissä konteksteissa (laitosten nimet, viitetarrat).

Kynnysarvojen määrittäminen asiakirjatyyppien mukaan: KYC-asiakirjoilla on erilaiset PII-jakaumat kuin asiakastukisähköposteilla tai kliinisillä muistiinpanoilla. Tunnistusrajojen määrittäminen erikseen asiakirjatyyppien mukaan — korkeampi tarkkuus suurille KYC-käsittelyille, korkeampi palautus kliiniselle anonymisoinnille — mahdollistaa säätämisen operatiivisten vaatimusten mukaan sen sijaan, että hyväksyttäisiin yksi koko sopii kaikille -oletus.

Viivästysohjelma ei ole PII-automaation kustannus. Se on kustannus, joka johtuu työkalujen käyttämisestä, joita ei ole konfiguroitu suurten monikielisten KYC:n operatiivisiin vaatimuksiin.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.