Retour au blogGDPR & Conformité

NAIH Hongrie : TAJ-Szám, Adóazonosító Jel, et Pourquoi la Précision du NER Hongrois Est Inférieure à la Moyenne de l'UE

La précision du NER hongrois est de 67 % contre une moyenne de l'UE de 82 % — évaluation de la NAIH en 2024. Lacunes dans la détection du TAJ-szám et de l'adóazonosító jel. La NAIH exige une DPIA pour tous les systèmes d'IA traitant des données personnelles.

March 7, 20267 min de lecture
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

L'Autorité nationale de protection des données et de la liberté d'information de Hongrie (NAIH) a publié une évaluation technique de 2024 révélant que la précision des modèles NER en langue hongroise n'atteint que 67 % — par rapport à la moyenne de l'UE de 82 % pour les principales langues européennes. Cet écart impacte directement la conformité : les organisations traitant des données personnelles hongroises avec des outils NLP allemands ou anglais manquent systématiquement les identifiants et entités nommées spécifiques à la Hongrie.

L'écart de précision de 67 % du NER : Ce que cela signifie

L'écart de précision entre les modèles NER hongrois et ceux des principales langues européennes a des causes linguistiques structurelles :

Morphologie hongroise : Le hongrois est une langue agglutinante — les mots sont formés par la concaténation de suffixes pour exprimer des relations grammaticales que l'anglais exprime par des mots séparés. Un nom hongrois dans une phrase prend différentes formes grammaticales selon son rôle : "Kovács Péter" (nominatif), "Kovács Péternek" (datif), "Kovács Pétertől" (ablatif). Les modèles NER doivent reconnaître le même nom à travers des dizaines de formes grammaticales.

Ordre des noms : Les noms hongrois sont écrits dans un ordre oriental — le nom de famille d'abord, le prénom ensuite (Kovács Péter, pas Péter Kovács). C'est l'inverse de l'ordre des noms en Europe occidentale. Les modèles NLP formés sur des modèles de noms anglais ou allemands qui supposent un ordre prénom-nom échouent systématiquement à reconnaître les noms hongrois.

Jeu de caractères hongrois : Le hongrois utilise ő, ű (voyelles à double accent aigu) en plus de ö, ü. Ces caractères sont distincts des umlauts allemands et nécessitent un encodage/tokenisation séparé. Les documents avec des incohérences d'encodage (Windows-1250 vs. UTF-8) créent des échecs de détection.

Le résultat : les organisations utilisant des outils NLP anglais ou allemands pour traiter des dossiers RH, des documents médicaux ou des contrats clients hongrois manquent les noms hongrois à des taux 33 % plus élevés que les mêmes outils appliqués à du texte anglais ou allemand.

TAJ-Szám : L'identifiant de sécurité sociale de la Hongrie

Le TAJ-szám (Társadalombiztosítási Azonosító Jel) est le numéro d'identification de sécurité sociale à 9 chiffres de la Hongrie, attribué à tous les citoyens et résidents hongrois. Il apparaît dans :

  • L'enregistrement de la santé et les dossiers médicaux
  • Les contrats de travail (obligatoire pour la paie)
  • L'inscription aux prestations sociales
  • Les dossiers de comptes de pension

Chiffre de contrôle : Le chiffre de contrôle du TAJ-szám est calculé à l'aide d'une somme pondérée : multiplier les chiffres 1-8 par des poids alternés (3,7,3,7,3,7,3,7), faire la somme, prendre le modulo 10. Le résultat est le chiffre de contrôle. Cet algorithme est spécifique à la Hongrie — pas le même algorithme de Luhn utilisé pour le personnummer suédois ou le SIN.

Le TAJ-szám est détecté avec seulement 61 % de précision par des outils NLP génériques (évaluation NAIH 2024). L'échec principal : le format à 9 chiffres correspond à de nombreux numéros de référence dans les documents hongrois, et sans le chiffre de contrôle spécifique au TAJ, les outils ne peuvent pas distinguer les numéros TAJ des faux positifs.

Adóazonosító Jel : Le numéro d'identification fiscale de la Hongrie

L'adóazonosító jel est un numéro d'identification fiscale individuel à 10 chiffres (à ne pas confondre avec le numéro fiscal d'entreprise, adószám). Format : 8XXXXXXXX où le premier chiffre est toujours 8 (constant), suivi de 9 chiffres avec un chiffre de contrôle.

Calcul du chiffre de contrôle : multiplier les chiffres 2-9 par des poids (9,7,3,1,9,7,3,1), faire la somme, prendre le modulo 10. Si le résultat est 0, le chiffre de contrôle est 0. Sinon, le chiffre de contrôle est le résultat.

L'adóazonosító jel apparaît dans les dossiers d'emploi, les déclarations fiscales, les contrats de travailleurs indépendants et les documents de services financiers. L'application de la NAIH a constaté qu'il était souvent manqué dans les documents RH traités par des outils PII configurés à l'étranger.

Exigence de DPIA pour les systèmes d'IA de la NAIH

Les directives de la NAIH de 2024 exigent une DPIA complétée avant de déployer tout système d'IA traitant des données personnelles — plus prescriptif que l'approche basée sur les risques du RGPD. La DPIA doit :

  • Décrire les entrées de données du modèle d'IA (données d'entraînement, entrées d'inférence) et les sorties
  • Documenter la base légale pour tout traitement de données personnelles
  • Évaluer la précision du traitement en langue hongroise (la NAIH exige spécifiquement une documentation de précision pour les langues non moyennes de l'UE)
  • Inclure un mécanisme de révision humaine pour les décisions automatisées
  • Être mise à jour annuellement lorsque le système d'IA est réentraîné

Pour les organisations déployant des outils d'IA qui traitent des données d'employés, de clients ou de citoyens hongrois : la combinaison de la DPIA obligatoire de la NAIH, de l'écart de précision de 67 % du NER nécessitant des modèles spécifiques à la Hongrie, et des exigences de validation des chiffres de contrôle du TAJ-szám et de l'adóazonosító jel crée un profil de conformité technique distinct.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.