Japan My Number : APPI et la vérification Verhoeff
La Commission japonaise de protection des informations personnelles (PPC) a rendu 45 décisions d'application en 2024. Elle a également publié les premières orientations japonaises sur la confidentialité de l'IA. Une étude PPC a révélé que 63 % des outils NLP génériques échouent à détecter le My Number (マイナンバー) dans les documents japonais. Si votre équipe traite des données de résidents japonais, cette lacune représente un risque direct sous l'APPI.
Qu'est-ce que le My Number
Le Japon attribue à chaque résident un identifiant unique à 12 chiffres. C'est le My Number, qui fait partie du Système de numéro individuel (マイナンバー制度). Il couvre les impôts, la retraite, l'assurance maladie et la réponse aux catastrophes. Le My Number est une donnée sensible sous l'APPI. Vous avez besoin d'une raison légale pour le collecter ou le partager.
Le problème de la vérification Verhoeff
Le My Number utilise l'algorithme Verhoeff pour son chiffre de contrôle. Verhoeff est une méthode mathématique qui détecte toutes les erreurs sur un seul chiffre. Elle détecte aussi toutes les erreurs où deux chiffres adjacents sont inversés. Elle nécessite trois tables de consultation. Vous ne pouvez pas la calculer de tête. Elle nécessite du code.
Cela importe pour deux raisons. Premièrement, le format à 12 chiffres du Japon ressemble à de nombreux autres nombres. Les codes de factures, les identifiants de référence et les chaînes de date partagent le même format. Sans vérification Verhoeff, un outil signalera les mauvais numéros. Deuxièmement, la plupart des outils n'utilisent pas Verhoeff. Ils utilisent des vérifications modulo-10 ou modulo-11 plus simples. Celles-ci ne fonctionnent pas pour le My Number.
L'étude PPC a révélé que 63 % des outils sautent la vérification ou utilisent une méthode plus simple. Les deux problèmes surviennent en même temps : faux positifs et faux négatifs.
L'algorithme de Luhn, utilisé pour les cartes de crédit, est plus simple. Le My Number n'utilise pas Luhn. Les outils conçus pour Luhn ne fonctionneront pas ici.
Trois systèmes d'écriture, un seul nom
Le texte japonais utilise trois systèmes d'écriture à la fois. Un outil doit gérer les trois.
Hiragana (ひらがな) : Pour la grammaire et les mots natifs. 46 caractères de base.
Katakana (カタカナ) : Pour les mots étrangers et les noms. 46 caractères de base. Les noms étrangers au Japon apparaissent dans cette écriture.
Kanji (漢字) : Symboles pour les noms et les substantifs. Environ 2 000 sont d'usage courant.
Le nom d'une personne peut apparaître sous quatre formes : Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) et Romaji (Tanaka Taro). Un outil doit correspondre aux quatre. S'il en manque un, il manquera la plupart des enregistrements de cette personne.
Autres identifiants japonais à détecter
Permis de conduire (運転免許証番号) : 12 chiffres. Les deux premiers indiquent la préfecture. Tokyo est 10. Osaka est 62. Cela permet à un outil de vérifier si le numéro est valide pour cette région.
Passeport (旅券番号) : Deux lettres plus sept chiffres. Format OACI. Le Japon utilise des paires de lettres spécifiques.
Carte d'assurance maladie (健康保険証記号番号) : Un symbole plus un numéro. Le format dépend de l'assureur. L'assurance maladie nationale (国民健康保険) et l'assurance gérée par la société (協会けんぽ) utilisent des formats différents.
Carte de résidence (在留カード番号) : Pour les résidents étrangers. Deux lettres, huit chiffres, deux lettres. Le ministère de la Justice délivre cette carte.
La règle d'anonymisation de l'APPI
L'APPI dispose d'une norme stricte pour les données anonymisées appelée informations anonymisées (匿名加工情報). Elle va plus loin que le RGPD dans un domaine clé. L'anonymisation doit être vérifiable par des tiers et techniquement irréversible.
Pour se conformer, une organisation doit :
- Supprimer tous les identifiants directs, y compris le My Number.
- Traiter toutes les combinaisons de quasi-identifiants.
- Utiliser la k-anonymité ou une méthode similaire.
- Publier une description générale des mesures prises.
- Ne jamais tenter de ré-identifier les données.
Les orientations IA 2024 de la PPC ajoutent une règle spécifique. Si vous entraînez une IA sur des données anonymisées, vous ne pouvez pas utiliser ce modèle pour ré-identifier des personnes. C'est une interdiction directe des attaques par inversion de modèle contre les ensembles d'entraînement APPI.
Pour répondre aux normes PPC, vous avez besoin de quatre choses. Premièrement, la validation Verhoeff pour le My Number. Deuxièmement, le NER japonais utilisant ja_core_news avec une tokenisation appropriée. Troisièmement, la correspondance de noms en Kanji, Kana et Romaji. Quatrièmement, les vérifications de codes de préfecture pour les numéros de permis de conduire.
L'Inde utilise Aadhaar, qui nécessite également la validation Verhoeff. Le guide de conformité technique DPDPA Inde couvre cela en détail. Pour la détection d'identifiants nationaux dans plusieurs pays, voir détection des identifiants fiscaux de l'UE sous le RGPD.