Documents qui défient les outils monolingues
Un contrat de travail d'une entreprise pharmaceutique suisse n'est pas rédigé dans une seule langue. La Suisse a quatre langues officielles. Les documents produits par les organisations suisses mélangent régulièrement l'allemand pour le corps principal du contrat, le français pour certaines clauses réglementaires et l'anglais pour les sections de normalisation internationale — parfois au sein d'un même paragraphe.
Les procès-verbaux d'une entreprise belge contiennent des rapports en néerlandais avec des résolutions formelles en français et des sections de résumé en anglais pour les investisseurs internationaux. Un accord de traitement des données d'une multinationale a des spécifications techniques en anglais, des clauses sur les droits des personnes concernées en allemand et des informations de contact de la DPA en français.
Ce ne sont pas des documents inhabituels. Ils représentent la production standard d'organisations multinationales opérant sur des marchés multilingues. Et les outils de détection PII monolingues échouent systématiquement sur eux.
Le taux d'erreur 45 % plus élevé
Des recherches comparant les approches NER monolingues et multilingues sur des documents en langues mixtes ont révélé que les documents en langues mixtes entraînent un taux d'erreur PII 45 % plus élevé dans les outils NER monolingues par rapport à leur performance sur des documents en langue unique.
La source de l'écart est architecturale : un modèle NER monolingue entraîné sur du texte allemand apprend les modèles de noms allemands, les conventions de noms d'organisations allemandes et les structures d'adresses allemandes. Lorsque ce modèle rencontre une section en français au sein d'un document principalement en allemand, il fonctionne en dehors de sa distribution d'entraînement. Les noms de personnes français, les adresses françaises et les identifiants organisationnels français dans cette section sont soumis à une précision de détection réduite — non pas parce que le modèle est mal entraîné, mais parce qu'il a été entraîné sur la mauvaise langue pour cette section.
L'autre constatation : 72 % des entreprises de l'UE traitent des documents dans 3 langues ou plus simultanément (EDPB 2024), et les documents RH multilingues contiennent 67 % de PII en plus par page que les équivalents en langue unique (Gartner 2024). La combinaison d'une densité PII plus élevée et de taux d'erreur plus élevés aggrave l'écart de conformité dans les organisations qui traitent des documents RH, juridiques et commerciaux multilingues.
Comment les frontières linguistiques créent des échecs de détection
L'échec n'est pas uniforme. Les PII aux frontières linguistiques — là où une section passe d'une langue à une autre — sont particulièrement vulnérables.
Un contrat de travail pourrait contenir une clause comme : "Der Arbeitnehmer (Employé : Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu..." — mélangeant la structure de phrase allemande avec un nom et une date de naissance français. Un modèle NER en langue allemande rencontre le nom français à un endroit où il s'attend à des noms de type allemand et peut échouer à le classer correctement. Un modèle en langue française voit des mots de contexte en allemand et ne peut pas identifier de manière fiable la structure du document environnant.
L'observation de Gartner 2024 selon laquelle les documents RH multilingues contiennent 67 % de PII en plus par page que les équivalents en langue unique rend cet échec de détection aux frontières particulièrement conséquent : les documents RH sont parmi les types de documents à la plus haute densité de PII, et ils sont produits par des organisations multilingues sous forme de langues mixtes.
La solution du transformateur cross-lingual
XLM-RoBERTa (Modèle de Langue Cross-lingual - Roberta) représente une approche architecturale différente à ce problème. Plutôt que d'entraîner un modèle séparé pour chaque langue, XLM-RoBERTa est entraîné sur du texte provenant de 100 langues simultanément. Le modèle apprend que les tâches de reconnaissance d'entités partagent des modèles à travers les langues — que la relation structurelle entre un nom de personne et les mots de contexte environnants est similaire en allemand, en français et en anglais même lorsque les mots spécifiques diffèrent.
Pour les documents en langues mixtes, l'architecture cross-lingual de XLM-RoBERTa signifie que le modèle n'a pas besoin de "changer" entre les modèles linguistiques à une frontière de document. Il traite le texte comme une séquence continue, appliquant la même capacité de reconnaissance d'entités indépendamment de la transition linguistique.
Ce n'est pas une solution complète — un ajustement spécifique à la langue sur des données d'entraînement en allemand, en français et dans d'autres langues fournit une précision supplémentaire pour chaque langue individuellement. Mais la base cross-lingual fournit une détection fiable à travers les frontières linguistiques que les modèles monolingues gèrent de manière incohérente.
Pour les organisations suisses, belges et autres multinationales dont les documents franchissent régulièrement des frontières linguistiques, la distinction architecturale entre NER monolingue et cross-lingual se traduit directement en résultats de conformité : les entités manquées aux frontières linguistiques dans les outils monolingues sont détectées par des architectures cross-lingual.
Sources :