anonym.legal

By · Last updated 2026-06-10

Înapoi la BlogGDPR & Conformitate

My Number Japonia: Verhoeff și APPI

63% dintre instrumentele generice eșuează în detectarea My Number în documentele japoneze. My Number folosește algoritmul Verhoeff — cea mai complexă sumă de control pentru un act de identitate național din Asia.

June 10, 20268 min citire
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Comisia japoneză pentru protecția informațiilor personale (PPC) a emis 45 de decizii de aplicare în 2024 și a publicat primul ghid japonez specific privind confidențialitatea în AI. Evaluarea tehnică PPC din 2024 a constatat că 63% dintre instrumentele NLP generice implementate pentru procesarea documentelor japoneze nu detectează cu acuratețe My Number (マイナンバー) — numărul național de identificare cu 12 cifre al Japoniei. Pentru organizațiile cu operațiuni în Japonia sau care procesează date ale cetățenilor japonezi, această lacună creează o expunere directă la conformitatea APPI.

My Number: Provocarea Validării Verhoeff

Sistemul Individual Number al Japoniei (マイナンバー制度, Sistemul My Number) atribuie un număr unic de 12 cifre fiecărui rezident din Japonia. My Number este utilizat pentru:

  • Administrarea fiscală (declarații fiscale, state de reținere la sursă)
  • Securitate socială (pensie, înregistrare asigurări de sănătate)
  • Răspuns la dezastre (identificare în situații de urgență)

Algoritmul Verhoeff: Cifra de control a My Number folosește algoritmul Verhoeff — un algoritm de detectare a erorilor bazat pe teoria grupurilor, care poate detecta toate erorile cu o singură cifră și toate erorile de transpunere adiacentă. Algoritmul folosește trei tabele de consultare: un tabel de înmulțire a grupului diedric (D5), un tabel invers și un tabel de permutări.

Implementarea Verhoeff necesită menținerea acestor trei tabele și aplicarea unei secvențe de consultări. Spre deosebire de algoritmul Luhn (aritmetică modulară simplă), Verhoeff nu poate fi calculat mental — necesită o implementare programatică.

De ce contează aceasta pentru detectarea datelor personale:

  • Formatul de 12 cifre al My Number se potrivește cu multe numere de referință din documentele japoneze
  • Fără validarea Verhoeff, instrumentele generează fals pozitive masive din numere de factură, coduri de referință și secvențe dată-oră
  • Instrumentele care implementează doar cifre de control modulare simple (modulo 10 sau 11) nu pot valida My Number

Evaluarea PPC din 2024 a constatat că 63% dintre instrumentele implementate fie potrivesc tipare fără validare, fie implementează verificări modulare mai simple — generând simultan fals pozitive și fals negative.

Scriptul Japonez: Provocarea celor Trei Sisteme

Textul japonez folosește simultan trei sisteme de scriere:

Hiragana (ひらがな): Silabic fonetic folosit pentru particule gramaticale, terminații de conjugare verbală și cuvinte japoneze native. 46 de caractere de bază.

Katakana (カタカナ): Silabic fonetic folosit pentru cuvinte străine, termeni tehnici și accentuare. 46 de caractere de bază. Numele străine în japoneză sunt de obicei scrise în Katakana.

Kanji (漢字): Caractere logografice derivate din chineză, folosite pentru substantive, rădăcini verbale și nume. Japoneza folosește aproximativ 2.000 de Kanji comune.

Codificarea numelor japoneze: Numele unei singure persoane japoneze poate apărea în:

  • Forma Kanji: 田中太郎
  • Hiragana (ghid fonetic, furigana): たなかたろう
  • Katakana (ca conținut străin): タナカ タロウ
  • Romaji (script latin): Tanaka Taro sau TANAKA Taro (pentru documente internaționale)

Un instrument de date personale trebuie să recunoască toate cele patru forme ale aceluiași nume — sau riscă să omită majoritatea aparițiilor numelor în documentele japoneze.

Identificatori Naționali Japonezi în Afara My Number

Numărul permisului de conducere (運転免許証番号): 12 cifre începând cu un cod de prefectură de 2 cifre (10 pentru Tokyo, 62 pentru Osaka etc.). Codurile de prefectură permit validarea geografică a numărului de permis.

Pașaportul japonez (旅券番号): Format ICAO standard — 2 litere urmate de 7 cifre. Combinațiile de litere specifice Japoniei urmează convențiile de emitere.

Numărul certificatului de asigurare de sănătate (健康保険証記号番号): Formatul simbol + număr de asigurare variază în funcție de asigurător (Japonia are mai multe scheme de asigurare de sănătate pentru diferite categorii de angajare).

Numărul cardului de rezidență (在留カード番号): Pentru rezidenții străini — format 2 litere + 8 cifre + 2 litere, emis de Ministerul Justiției.

Standardul de Anonimizare al APPI

APPI-ul Japoniei creează un standard de anonimizare mai strict decât GDPR într-un aspect specific: standardul „informații anonimizate" (匿名加工情報) impune ca anonimizarea să fie verificabilă de terți și tehnic ireversibilă. Organizațiile care creează seturi de date anonimizate trebuie să:

  1. Șteargă sau înlocuiască toți identificatorii direcți (inclusiv My Number)
  2. Abordeze toate combinațiile de quasi-identificatori
  3. Aplice k-anonimitate sau tehnică echivalentă
  4. Publice măsurile luate (descriere generală, fără a dezvălui detalii specifice de implementare)
  5. Nu încerce re-identificarea datelor anonimizate

Ghidul AI al PPC din 2024 adaugă: organizațiile care folosesc seturi de date anonimizate pentru antrenarea AI nu pot folosi modelul AI rezultat pentru a încerca re-identificarea persoanelor din datele de antrenare — o interdicție explicită privind atacurile de inversare a modelului împotriva seturilor de antrenare anonimizate conform APPI.

Pentru procesarea conformă cu APPI: My Number cu validarea Verhoeff, NER în limba japoneză folosind spaCy ja_core_news cu tokenizare japoneză, recunoașterea numelor multi-script în forme Kanji/Kana/Romaji și validarea codului de prefectură al permisului de conducere sunt linia de bază tehnică pentru conformitatea PPC.

Surse:

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.