La Commission de Protection des Informations Personnelles du Japon (PPC) a émis 45 décisions d'application en 2024 et a publié les premières directives sur la confidentialité spécifiques à l'IA au Japon. L'évaluation technique de la PPC en 2024 a révélé que 63 % des outils NLP génériques déployés pour le traitement de documents japonais échouent à détecter avec précision My Number (マイナンバー) — le numéro d'identification national à 12 chiffres du Japon. Pour les organisations ayant des opérations au Japon ou traitant des données de ressortissants japonais, cet écart crée une exposition directe à la conformité APPI.
My Number : Le Défi de Validation Verhoeff
Le Système de Numéro Individuel du Japon (マイナンバー制度, Système My Number) attribue un numéro unique à 12 chiffres à chaque résident du Japon (1,36 milliard d'utilisateurs). My Number est utilisé pour :
- Administration fiscale (déclarations de revenus, états de retenue)
- Sécurité sociale (inscription à la pension, à l'assurance santé)
- Réponse aux catastrophes (identification en cas d'urgence)
Algorithme de Verhoeff : Le chiffre de contrôle de My Number utilise l'algorithme de Verhoeff — un algorithme de détection d'erreurs basé sur la théorie des groupes qui peut détecter toutes les erreurs à un chiffre et toutes les erreurs de transposition adjacentes. L'algorithme utilise trois tables de recherche : une table de multiplication de groupe diédral (D5), une table inverse et une table de permutation.
L'implémentation de Verhoeff nécessite de maintenir ces trois tables et d'appliquer une séquence de recherches. Contrairement à l'algorithme de Luhn (arithmétique modulaire simple), Verhoeff ne peut pas être calculé mentalement — il nécessite une implémentation programmatique.
Pourquoi cela compte pour la détection de PII :
- Le format à 12 chiffres de My Number correspond à de nombreux numéros de référence de documents japonais
- Sans validation Verhoeff, les outils génèrent d'énormes faux positifs à partir des numéros de facture, des codes de référence de documents et des séquences date-heure
- Les outils qui n'implémentent que des chiffres de contrôle modulaires de base (modulo 10 ou 11) ne peuvent pas valider My Number et manqueront des numéros qui nécessitent Verhoeff pour vérification
L'évaluation de la PPC en 2024 a révélé que 63 % des outils déployés effectuent soit une correspondance de motifs sans validation, soit implémentent des vérifications modulaires plus simples — générant des faux positifs et des faux négatifs simultanément.
Script Japonais : Le Défi des Trois Systèmes
Le texte japonais utilise simultanément trois systèmes d'écriture :
Hiragana (ひらがな) : Syllabaire phonétique utilisé pour les particules grammaticales, les terminaisons de conjugaison des verbes et les mots japonais natifs. 46 caractères de base.
Katakana (カタカナ) : Syllabaire phonétique utilisé pour les mots étrangers, les termes techniques et l'emphase. 46 caractères de base. Les noms étrangers en japonais sont généralement écrits en Katakana.
Kanji (漢字) : Caractères logographiques dérivés du chinois, utilisés pour les noms, les racines des verbes et les noms. Le japonais utilise environ 2 000 Kanji courants.
Encodage des noms japonais : Le nom d'une personne japonaise peut apparaître sous :
- Forme Kanji : 田中太郎
- Hiragana (guide phonétique, furigana) : たなかたろう
- Katakana (en tant que contenu étranger) : タナカ タロウ
- Romaji (script latin) : Tanaka Taro ou TANAKA Taro (pour les documents internationaux)
Un outil de PII doit reconnaître les quatre formes du même nom — ou risquer de manquer la majorité des occurrences de noms dans les documents japonais.
Identifiants Nationaux Japonais au-delà de My Number
Numéro de permis de conduire (運転免許証番号) : 12 chiffres commençant par un code de préfecture à 2 chiffres (10 pour Tokyo, 62 pour Osaka, etc.). Les codes de préfecture permettent la validation géographique du numéro de permis.
Passeport japonais (旅券番号) : Format ICAO standard — 2 lettres suivies de 7 chiffres. Les combinaisons de lettres spécifiques au Japon suivent des conventions d'émission.
Numéro de certificat d'assurance maladie (健康保険証記号番号) : Le format du symbole d'assurance + numéro varie selon l'assureur (le Japon a plusieurs régimes d'assurance maladie pour différentes catégories d'emploi). L'Assurance Commune (国民健康保険) diffère de l'Assurance Gérée par la Société (協会けんぽ).
Numéro de carte de résident (在留カード番号) : Pour les résidents étrangers — format 2 lettres + 8 chiffres + 2 lettres, délivré par le Ministère de la Justice.
Norme d'Information Anonymisée de l'APPI
L'APPI du Japon crée une norme d'anonymisation plus stricte que le GDPR d'une manière spécifique : la norme "information anonymisée" (匿名加工情報) exige que l'anonymisation soit vérifiable par un tiers et techniquement irréversible. Les organisations qui créent des ensembles de données anonymisées doivent :
- Supprimer ou remplacer tous les identifiants directs (y compris My Number)
- Traiter toutes les combinaisons de quasi-identifiants
- Appliquer la k-anonymité ou une technique équivalente
- Publier les mesures prises (description générale, sans révéler de détails spécifiques sur l'implémentation)
- Ne pas tenter de réidentifier les données anonymisées
Les directives sur l'IA de la PPC en 2024 ajoutent : les organisations utilisant des ensembles de données anonymisées pour l'entraînement de l'IA ne peuvent pas utiliser le modèle d'IA résultant pour tenter de réidentifier des individus à partir des données d'entraînement — une interdiction explicite sur les attaques d'inversion de modèle contre les ensembles d'entraînement anonymisés par l'APPI.
Pour un traitement conforme à l'APPI : My Number avec validation Verhoeff, NER en langue japonaise utilisant spaCy ja_core_news avec tokenisation japonaise, reconnaissance de noms multi-scripts à travers les formes Kanji/Kana/Romaji, et validation du code de préfecture du permis de conduire sont les bases techniques pour la conformité à la PPC.
Sources :