Voltar ao BlogGDPR & Conformidade

Processamento de Documentos KYC em Escala...

Um banco digital que processa 5.000 solicitações KYC diariamente em 15 países da UE descobriu que sua etapa de detecção de PII estava criando um...

March 28, 20267 min de leitura
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

Requisitos de Conformidade Competitivos do KYC

A conformidade com Know Your Customer (KYC) cria uma tensão específica nas operações de fintech: os reguladores exigem verificação de identidade minuciosa — coletando e verificando documentos pessoais — enquanto as regulamentações de proteção de dados exigem a minimização e proteção desses dados pessoais uma vez coletados.

Um banco digital que completa KYC para um solicitante de nova conta coleta documentos de identidade (cartões de identidade nacionais, passaportes, carteiras de motorista), comprovante de endereço e documentos de verificação financeira. Esses documentos contêm altas concentrações dos dados pessoais que o GDPR, as regulamentações de AML e as autoridades de supervisão bancária exigem que sejam tratados com as mais rigorosas medidas de proteção de dados.

Quando esses dados coletados são usados para análises, compartilhados com sistemas de detecção de fraudes ou processados para treinamento de modelos de ML, os princípios de minimização de dados e limitação de propósito do GDPR exigem que os dados pessoais sejam anonimizados ou pseudonimizados antes do uso em processos secundários.

O Problema do Backlog de 2 Dias

Uma plataforma de banco digital que processa 5.000 solicitações KYC diariamente em 15 países europeus encontrou um problema operacional específico com sua etapa de detecção de PII: a taxa de falsos positivos em seu sistema de detecção automatizado estava criando filas de revisão que se estendiam a um backlog de 2 dias.

A fonte do backlog: sua ferramenta de detecção de PII baseada em ML estava sinalizando aproximadamente 8% do texto não-PII em documentos KYC como dados pessoais potenciais. Com 5.000 solicitações por dia, cada solicitação contendo vários documentos totalizando dezenas de páginas, o volume de falsos positivos excedeu o que a equipe de conformidade poderia revisar dentro do mesmo dia útil.

Os falsos positivos eram sistemáticos e previsíveis:

  • Nomes de empresas em documentos de endereço sinalizados como nomes de pessoas (o reconhecedor de nomes do modelo de ML confundiu substantivos próprios)
  • Números de referência e códigos de solicitação sinalizados como potenciais números de identificação (combinação de padrões numéricos sem validação de checksum)
  • "Chase" e nomes comuns semelhantes aparecendo em nomes de instituições sinalizados como PII de nome de pessoa

Cada falso positivo exigia revisão humana para confirmar ou descartar. Com uma taxa de falsos positivos de 8% em 5.000 solicitações, isso se traduziu em milhares de tarefas diárias de revisão que não podiam ser automatizadas.

O Que a Pesquisa da ACL Mostra

A pesquisa da ACL 2024 avaliando modelos de NLP multilíngues para detecção de PII descobriu que apenas 5% dos modelos de NLP multilíngues alcançam melhor que 85% de F1-score para detecção de PII não inglesa em todos os 24 idiomas da UE.

O F1-score combina precisão e recall — um modelo com alto recall, mas baixa precisão (muitos falsos positivos) pontua mal, assim como um modelo com alta precisão, mas baixo recall (muitos falsos negativos). A taxa de falha de 95% para alcançar 85% de F1 em todos os 24 idiomas da UE reflete a dificuldade de construir um modelo que seja tanto preciso quanto abrangente em todo o conjunto de idiomas da UE.

Para contraste, o XLM-RoBERTa alcança um F1 cross-lingual de 91,4% para tarefas de detecção de PII, de acordo com a avaliação de benchmarking da HuggingFace 2024. A diferença entre 91,4% e o desempenho mediano dos modelos de NLP multilíngues explica por que muitas organizações de fintech encontram problemas operacionais ao aplicar detecções multilíngues prontas para uso em fluxos de trabalho de KYC.

A Solução Híbrida para KYC de Alto Volume

Para operações de KYC que processam altos volumes de documentos de identidade em várias jurisdições da UE, o problema de falsos positivos é solucionável por meio de escolhas arquitetônicas:

Regex de identificador estruturado com validação de checksum: Números de identificação nacional (como Steuer-ID alemã, BSN holandês, PESEL polonês, etc.) têm algoritmos de validação determinísticos. A detecção baseada em formato + validação de checksum produz taxas de falsos positivos quase zero para esses identificadores — um número de referência que não passa pelo algoritmo de checksum do ID nacional não é um ID nacional, independentemente de seu comprimento numérico.

NLP ciente do contexto para nomes e PII de texto livre: Nomes de pessoas em documentos de identidade aparecem em contextos previsíveis ("Nome:", "Sobrenome:", campos de formulário específicos). Os requisitos de palavras de contexto para detecções de NLP reduzem falsos positivos de strings semelhantes a nomes que aparecem em contextos não nome (nomes de instituições, rótulos de referência).

Configuração de limiares por tipo de documento: Documentos KYC têm distribuições de PII diferentes de e-mails de suporte ao cliente ou notas clínicas. Configurar limiares de detecção separadamente para tipos de documentos — maior precisão para processamento KYC de alto volume, maior recall para desidentificação clínica — permite ajustes às necessidades operacionais em vez de aceitar um padrão único para todos.

O problema do backlog não é um custo da automação de PII. É um custo de usar ferramentas não configuradas para os requisitos operacionais de KYC multilíngue de alto volume.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.