Las reglas contradictorias del KYC
Las reglas Know Your Customer (KYC) crean una tensión real para las empresas fintech. Los reguladores quieren verificaciones de identidad exhaustivas. Exigen que las empresas recopilen y verifiquen documentos personales. Pero las leyes de protección de datos empujan en sentido contrario. Exigen que las empresas minimicen esos datos una vez recopilados.
Un banco que abre una nueva cuenta recopila muchos documentos. Estos incluyen tarjetas de identidad nacionales, pasaportes y licencias de conducir. También recopila comprobantes de domicilio y documentos financieros. Estos archivos contienen datos personales densos. El RGPD, las reglas AML y los supervisores bancarios exigen todos un manejo estricto.
Cuando esos datos se transfieren a sistemas antifraude o análisis, se aplican reglas adicionales. Las reglas de minimización de datos del RGPD entran en juego. Los datos personales deben ser enmascarados o de-identificados antes de cualquier uso secundario.
El problema del retraso de 2 días
Un banco digital procesaba 5.000 solicitudes KYC diarias en 15 países de la UE. Su paso de escaneo de PII causaba un problema serio. La tasa de falsos positivos era demasiado alta. Las colas de revisión crecieron hasta alcanzar un retraso de 2 días.
La causa raíz era clara. Su herramienta basada en ML marcaba aproximadamente el 8% del texto no-PII como datos personales. Cada archivo tenía muchas páginas. El volumen diario de falsos positivos era demasiado grande para que el equipo lo gestione en un día. Seguían acumulando retraso.
Los falsos positivos se dividían en tres grupos:
- Nombres de empresas marcados como nombres de personas (el modelo confundía nombres propios)
- Códigos de referencia marcados como números de identidad (sin verificación de suma de control usada)
- Nombres comunes como "Chase" en nombres de bancos marcados como PII de nombre de persona
Cada falso positivo requería revisión humana. Al 8% en 5.000 archivos diarios, esto producía miles de tareas diarias. Ninguna podía automatizarse.
Lo que muestra la investigación ACL
La investigación ACL 2024 probó modelos NLP multilingües para la detección de PII. El hallazgo fue claro. Solo el 5% de los modelos NLP multilingües alcanzan mejor que 85% de F1-score para PII no inglés en los 24 idiomas de la UE.
El F1-score combina precisión y recall. Baja precisión significa muchos falsos positivos. Bajo recall significa muchos elementos perdidos. Ambos resultados obtienen puntuaciones bajas. La tasa de fallo del 95% para alcanzar 85% F1 muestra lo difícil que es la detección de PII multilingüe en la práctica.
Por el contrario, XLM-RoBERTa logra un F1 multilingüe del 91,4% para tareas de PII. Esta cifra proviene del benchmarking de HuggingFace 2024. La brecha entre 91,4% y el modelo mediano explica por qué las herramientas estándar fallan en KYC multilingüe.
Diseño híbrido para KYC de alto volumen
El problema de los falsos positivos es solucionable. Tres elecciones de diseño lo corrigen.
Regex con verificación de suma de control: Los números de identidad nacionales tienen reglas fijas. El Steuer-ID alemán, el BSN neerlandés y el PESEL polaco usan matemáticas de suma de control. Si un número falla la suma de control, no es un documento nacional de identidad. Formato más suma de control produce casi cero falsos positivos para estos identificadores.
NLP sensible al contexto para nombres: Los nombres de personas en los archivos KYC aparecen en lugares conocidos. Estos incluyen "Nombre:", "Apellido:" y campos de formulario establecidos. Requerir una palabra de contexto antes de marcar un nombre reduce los falsos positivos. Evita que los nombres de empresas activen alertas de nombres de persona.
Ajuste de umbral por tipo de archivo: Los archivos KYC difieren de los correos de soporte o las notas médicas. Cada tipo tiene una mezcla de PII diferente. Establecer umbrales por tipo de archivo permite a los equipos ajustar según sus necesidades. El KYC de alto volumen obtiene mayor precisión. La de-identificación médica obtiene mayor recall.
El retraso de 2 días no es un costo inevitable del escaneo de PII. Es el costo de usar herramientas genéricas en un flujo de trabajo específico. La solución es la configuración, no un equipo más grande.
Nuestra guía de cumplimiento del RGPD cubre las reglas de minimización de datos. Nuestra descripción general de seguridad y cumplimiento explica los controles técnicos que apoyan los flujos de trabajo KYC conformes.