Retour au blogGDPR & Conformité

Traitement des documents KYC à grande échelle...

Une banque numérique traitant 5 000 demandes KYC par jour dans 15 pays de l'UE a constaté que leur étape de détection des PII créait un retard de 2...

March 28, 20267 min de lecture
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

Les exigences de conformité concurrentes du KYC

La conformité au Know Your Customer (KYC) crée une tension spécifique dans les opérations fintech : les régulateurs exigent une vérification d'identité approfondie — collecte et vérification de documents personnels — tandis que les réglementations sur la protection des données exigent de minimiser et de protéger ces données personnelles une fois collectées.

Une banque numérique complétant le KYC pour un nouvel demandeur de compte collecte des documents d'identité (cartes d'identité nationales, passeports, permis de conduire), une preuve d'adresse et des documents de vérification financière. Ces documents contiennent de fortes concentrations des données personnelles que le RGPD, les réglementations AML et les autorités de supervision bancaire exigent d'être traitées avec les mesures de protection des données les plus strictes.

Lorsque ces données collectées sont utilisées pour des analyses, partagées avec des systèmes de détection de fraude ou traitées pour l'entraînement de modèles ML, les principes de minimisation des données et de limitation des finalités du RGPD exigent que les données personnelles soient anonymisées ou pseudonymisées avant leur utilisation dans des processus secondaires.

Le problème du retard de 2 jours

Une plateforme bancaire numérique traitant 5 000 demandes KYC par jour dans 15 pays européens a rencontré un problème opérationnel spécifique avec leur étape de détection des PII : le taux de faux positifs dans leur système de détection automatisé créait des files d'attente de révision qui s'étendaient à un retard de 2 jours.

La source du retard : leur outil de détection des PII basé sur ML signalait environ 8 % de texte non-PII dans les documents KYC comme des données personnelles potentielles. Avec 5 000 demandes par jour, chaque demande contenant plusieurs documents totalisant des dizaines de pages, le volume de faux positifs dépassait ce que l'équipe de conformité pouvait examiner dans la même journée de travail.

Les faux positifs étaient systématiques et prévisibles :

  • Noms d'entreprise dans des documents d'adresse signalés comme noms de personnes (le modèle ML confondait les noms propres)
  • Numéros de référence et codes de demande signalés comme des numéros d'identité potentiels (correspondance de motifs numériques sans validation de somme de contrôle)
  • "Chase" et d'autres prénoms communs apparaissant dans des noms d'institutions signalés comme PII de noms de personnes

Chaque faux positif nécessitait une révision humaine pour confirmer ou rejeter. À un taux de faux positifs de 8 % sur 5 000 demandes, cela se traduisait par des milliers de tâches de révision quotidiennes qui ne pouvaient pas être automatisées.

Ce que montre la recherche de l'ACL

La recherche de l'ACL 2024 évaluant les modèles NLP multilingues pour la détection des PII a révélé que seuls 5 % des modèles NLP multilingues atteignent un score F1 supérieur à 85 % pour la détection des PII non anglaises dans les 24 langues de l'UE.

Le score F1 combine la précision et le rappel — un modèle avec un rappel élevé mais une faible précision (beaucoup de faux positifs) obtient un mauvais score, tout comme un modèle avec une haute précision mais un faible rappel (beaucoup de faux négatifs). Le taux d'échec de 95 % pour atteindre 85 % de F1 dans les 24 langues de l'UE reflète la difficulté de construire un modèle qui soit à la fois précis et complet sur l'ensemble des langues de l'UE.

Pour contraste, XLM-RoBERTa atteint un 91,4 % de F1 cross-lingual pour les tâches de détection des PII, selon le benchmark 2024 de HuggingFace. L'écart entre 91,4 % et la performance médiane des modèles NLP multilingues explique pourquoi de nombreuses organisations fintech rencontrent des problèmes opérationnels lorsqu'elles appliquent une détection multilingue prête à l'emploi aux flux de travail KYC.

La solution hybride pour le KYC à fort volume

Pour les opérations KYC traitant de grands volumes de documents d'identité à travers plusieurs juridictions de l'UE, le problème des faux positifs est résoluble par des choix architecturaux :

Regex d'identifiant structuré avec validation de somme de contrôle : Les numéros d'identité nationaux (Steuer-ID allemand, BSN néerlandais, PESEL polonais, etc.) ont des algorithmes de validation déterministes. La détection basée sur le format + validation de somme de contrôle produit des taux de faux positifs quasi nuls pour ces identifiants — un numéro de référence qui ne passe pas l'algorithme de somme de contrôle d'identité nationale n'est pas un identifiant national, quelle que soit sa longueur numérique.

NLP conscient du contexte pour les noms et les PII en texte libre : Les noms de personnes dans les documents d'identité apparaissent dans des contextes prévisibles ("Nom :", "Prénom :", champs de formulaire spécifiques). Les exigences de mots contextuels pour les détections NLP réduisent les faux positifs provenant de chaînes semblables à des noms apparaissant dans des contextes non-nom (noms d'institutions, étiquettes de référence).

Configuration de seuil par type de document : Les documents KYC ont des distributions de PII différentes de celles des courriels de support client ou des notes cliniques. Configurer les seuils de détection séparément pour les types de documents — plus de précision pour le traitement KYC à fort volume, plus de rappel pour la désidentification clinique — permet d'ajuster aux exigences opérationnelles plutôt que d'accepter un défaut unique pour tous.

Le problème du retard n'est pas un coût de l'automatisation des PII. C'est un coût de l'utilisation d'outils non configurés pour les exigences opérationnelles du KYC multilingue à fort volume.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.