By · Last updated 2026-06-05

Retour au blogGDPR & Conformité

PPC Japon : Validation Verhoeff de My Number et...

63 % des outils génériques échouent à détecter My Number dans les documents japonais.

June 5, 20268 min de lecture
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan My Number : APPI et la vérification Verhoeff

La Commission japonaise de protection des informations personnelles (PPC) a rendu 45 décisions d'application en 2024. Elle a également publié les premières orientations japonaises sur la confidentialité de l'IA. Une étude PPC a révélé que 63 % des outils NLP génériques échouent à détecter le My Number (マイナンバー) dans les documents japonais. Si votre équipe traite des données de résidents japonais, cette lacune représente un risque direct sous l'APPI.

Qu'est-ce que le My Number

Le Japon attribue à chaque résident un identifiant unique à 12 chiffres. C'est le My Number, qui fait partie du Système de numéro individuel (マイナンバー制度). Il couvre les impôts, la retraite, l'assurance maladie et la réponse aux catastrophes. Le My Number est une donnée sensible sous l'APPI. Vous avez besoin d'une raison légale pour le collecter ou le partager.

Le problème de la vérification Verhoeff

Le My Number utilise l'algorithme Verhoeff pour son chiffre de contrôle. Verhoeff est une méthode mathématique qui détecte toutes les erreurs sur un seul chiffre. Elle détecte aussi toutes les erreurs où deux chiffres adjacents sont inversés. Elle nécessite trois tables de consultation. Vous ne pouvez pas la calculer de tête. Elle nécessite du code.

Cela importe pour deux raisons. Premièrement, le format à 12 chiffres du Japon ressemble à de nombreux autres nombres. Les codes de factures, les identifiants de référence et les chaînes de date partagent le même format. Sans vérification Verhoeff, un outil signalera les mauvais numéros. Deuxièmement, la plupart des outils n'utilisent pas Verhoeff. Ils utilisent des vérifications modulo-10 ou modulo-11 plus simples. Celles-ci ne fonctionnent pas pour le My Number.

L'étude PPC a révélé que 63 % des outils sautent la vérification ou utilisent une méthode plus simple. Les deux problèmes surviennent en même temps : faux positifs et faux négatifs.

L'algorithme de Luhn, utilisé pour les cartes de crédit, est plus simple. Le My Number n'utilise pas Luhn. Les outils conçus pour Luhn ne fonctionneront pas ici.

Trois systèmes d'écriture, un seul nom

Le texte japonais utilise trois systèmes d'écriture à la fois. Un outil doit gérer les trois.

Hiragana (ひらがな) : Pour la grammaire et les mots natifs. 46 caractères de base.

Katakana (カタカナ) : Pour les mots étrangers et les noms. 46 caractères de base. Les noms étrangers au Japon apparaissent dans cette écriture.

Kanji (漢字) : Symboles pour les noms et les substantifs. Environ 2 000 sont d'usage courant.

Le nom d'une personne peut apparaître sous quatre formes : Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) et Romaji (Tanaka Taro). Un outil doit correspondre aux quatre. S'il en manque un, il manquera la plupart des enregistrements de cette personne.

Autres identifiants japonais à détecter

Permis de conduire (運転免許証番号) : 12 chiffres. Les deux premiers indiquent la préfecture. Tokyo est 10. Osaka est 62. Cela permet à un outil de vérifier si le numéro est valide pour cette région.

Passeport (旅券番号) : Deux lettres plus sept chiffres. Format OACI. Le Japon utilise des paires de lettres spécifiques.

Carte d'assurance maladie (健康保険証記号番号) : Un symbole plus un numéro. Le format dépend de l'assureur. L'assurance maladie nationale (国民健康保険) et l'assurance gérée par la société (協会けんぽ) utilisent des formats différents.

Carte de résidence (在留カード番号) : Pour les résidents étrangers. Deux lettres, huit chiffres, deux lettres. Le ministère de la Justice délivre cette carte.

La règle d'anonymisation de l'APPI

L'APPI dispose d'une norme stricte pour les données anonymisées appelée informations anonymisées (匿名加工情報). Elle va plus loin que le RGPD dans un domaine clé. L'anonymisation doit être vérifiable par des tiers et techniquement irréversible.

Pour se conformer, une organisation doit :

  1. Supprimer tous les identifiants directs, y compris le My Number.
  2. Traiter toutes les combinaisons de quasi-identifiants.
  3. Utiliser la k-anonymité ou une méthode similaire.
  4. Publier une description générale des mesures prises.
  5. Ne jamais tenter de ré-identifier les données.

Les orientations IA 2024 de la PPC ajoutent une règle spécifique. Si vous entraînez une IA sur des données anonymisées, vous ne pouvez pas utiliser ce modèle pour ré-identifier des personnes. C'est une interdiction directe des attaques par inversion de modèle contre les ensembles d'entraînement APPI.

Pour répondre aux normes PPC, vous avez besoin de quatre choses. Premièrement, la validation Verhoeff pour le My Number. Deuxièmement, le NER japonais utilisant ja_core_news avec une tokenisation appropriée. Troisièmement, la correspondance de noms en Kanji, Kana et Romaji. Quatrièmement, les vérifications de codes de préfecture pour les numéros de permis de conduire.

L'Inde utilise Aadhaar, qui nécessite également la validation Verhoeff. Le guide de conformité technique DPDPA Inde couvre cela en détail. Pour la détection d'identifiants nationaux dans plusieurs pays, voir détection des identifiants fiscaux de l'UE sous le RGPD.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.