Retour au blogTechnique

Confidentialité des données en APAC...

Une fintech de Singapour traitant 500 000 chats de support par mois dans 12 langues APAC a constaté que son outil uniquement en anglais manquait des...

March 24, 20267 min de lecture
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

Le problème linguistique des BPO

Les entreprises de sous-traitance des processus commerciaux opèrent dans la réalité multilingue du support client APAC. Lorsqu'un client en Thaïlande contacte le support en thaï, lorsqu'un client indonésien écrit en Bahasa Indonesia, lorsqu'un client vietnamien utilise le vietnamien — le journal de chat est créé dans cette langue. Et lorsque ces journaux de chat sont analysés pour l'assurance qualité, la formation ou l'audit de conformité, les PII qu'ils contiennent sont dans cette langue.

Les outils de détection des PII centrés sur l'anglais n'ont pas été conçus pour cet environnement. Leurs reconnaisseurs d'entités ont été formés sur du texte en anglais. Leurs modèles de détection de noms ont appris les modèles de noms en anglais. Leur détection d'adresses a été formée sur des formats d'adresses en anglais.

Appliqués aux journaux de chat thaïlandais, indonésiens ou vietnamiens, ces outils produisent des taux de détection proches de zéro pour les PII spécifiques à la langue. Le nom d'un client thaïlandais, écrit en script thaï, est invisible pour un modèle qui a appris les noms à partir de texte en anglais. Une adresse indonésienne, suivant les conventions d'adresse indonésiennes, ne correspond pas aux modèles qu'un reconnaisseur d'adresses formé en anglais attend.

Les enjeux de conformité en APAC

Les réglementations sur la protection des données à travers l'APAC créent des obligations de conformité pour les organisations traitant les PII des clients :

PDPA de Thaïlande (Loi sur la protection des données personnelles) : En vigueur depuis 2022, la PDPA de Thaïlande impose des exigences en matière de minimisation des données, de consentement et de mesures de sécurité aux organisations traitant les données personnelles des résidents thaïlandais. Les journaux de support client contenant des noms, adresses et informations de contact thaïlandais relèvent du champ d'application de la PDPA.

Loi PDPL d'Indonésie : La loi complète sur la protection des données personnelles de l'Indonésie crée des obligations pour les organisations traitant les données personnelles des résidents indonésiens, y compris des exigences pour des mesures de sécurité appropriées.

PDPD du Vietnam (Décret sur la protection des données personnelles) : Le cadre de protection des données personnelles de 2023 du Vietnam couvre le traitement des données personnelles des résidents vietnamiens par des organisations opérant ou ciblant le Vietnam.

Pour les entreprises de BPO et les organisations mondiales servant des clients APAC, ces réglementations créent la même exigence fondamentale : les PII dans les données des clients doivent être identifiés et protégés de manière appropriée. L'exigence s'applique indépendamment de la langue utilisée par le client.

Le problème du volume de 500 000 chats

Une fintech basée à Singapour traitant 500 000 journaux de chat de support client par mois dans 12 langues APAC fait face à un défi opérationnel spécifique : son obligation de conformité couvre toutes les 500 000 interactions, mais son outil de détection des PII couvre avec précision uniquement le sous-ensemble en anglais.

Si 30 % des interactions sont en anglais et que l'outil atteint une précision de détection de 90 % pour les PII en anglais, l'outil protège avec succès 135 000 interactions. Les 365 000 interactions non anglaises restantes — représentant des données clients thaïlandaises, indonésiennes, vietnamiennes, philippines, malaises, coréennes, japonaises et d'autres langues — passent avec une détection minimale des PII.

La posture de conformité : 73 % des interactions mensuelles ne sont pas adéquatement protégées, même si l'obligation de conformité couvre les 500 000.

La révision manuelle de 365 000 interactions non anglaises à un taux de révision humaine raisonnable n'est pas opérationnellement faisable. L'organisation a besoin d'une détection automatisée des PII qui couvre leur véritable mélange linguistique, pas seulement l'anglais.

Ce que l'architecture cross-linguale fournit

XLM-RoBERTa — un modèle de transformateur cross-lingual formé sur du texte provenant de plus de 100 langues — fournit une reconnaissance d'entités qui se généralise à travers les frontières linguistiques. Un modèle formé sur des corpus multilingues apprend que les noms, les lieux et les organisations partagent des motifs structurels à travers les langues, même lorsque les formes superficielles diffèrent complètement.

Pour les langues APAC :

  • Indonésien (ID) : XLM-RoBERTa fournit une reconnaissance d'entités pour les noms de personnes, les organisations et les lieux en Bahasa Indonesia
  • Thaï (TH) : Le transfert cross-lingual à partir de familles de langues apparentées fournit une détection de PII de base
  • Vietnamien (VI) : Reconnaissance d'entités avec conscience des langues tonales
  • Philippin (TL) : Couverture pour les interactions clients en langue tagalog

Combiné avec des modèles Stanza spécifiques à la langue pour les langues où des modèles dédiés sont disponibles, l'approche cross-linguale étend la détection automatisée des PII à l'ensemble du mélange linguistique APAC — pas seulement au sous-ensemble anglais.

Pour les BPO, l'implication en matière de conformité est mesurable : au lieu de protéger 27 % des interactions mensuelles, la détection multilingue complète couvre l'ensemble du volume. Le fardeau de la révision manuelle passe de 365 000 interactions à un échantillon de contrôle qualité.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.