Comisia japoneză pentru protecția informațiilor personale (PPC) a emis 45 de decizii de aplicare în 2024 și a publicat primul ghid japonez specific privind confidențialitatea în AI. Evaluarea tehnică PPC din 2024 a constatat că 63% dintre instrumentele NLP generice implementate pentru procesarea documentelor japoneze nu detectează cu acuratețe My Number (マイナンバー) — numărul național de identificare cu 12 cifre al Japoniei. Pentru organizațiile cu operațiuni în Japonia sau care procesează date ale cetățenilor japonezi, această lacună creează o expunere directă la conformitatea APPI.
My Number: Provocarea Validării Verhoeff
Sistemul Individual Number al Japoniei (マイナンバー制度, Sistemul My Number) atribuie un număr unic de 12 cifre fiecărui rezident din Japonia. My Number este utilizat pentru:
- Administrarea fiscală (declarații fiscale, state de reținere la sursă)
- Securitate socială (pensie, înregistrare asigurări de sănătate)
- Răspuns la dezastre (identificare în situații de urgență)
Algoritmul Verhoeff: Cifra de control a My Number folosește algoritmul Verhoeff — un algoritm de detectare a erorilor bazat pe teoria grupurilor, care poate detecta toate erorile cu o singură cifră și toate erorile de transpunere adiacentă. Algoritmul folosește trei tabele de consultare: un tabel de înmulțire a grupului diedric (D5), un tabel invers și un tabel de permutări.
Implementarea Verhoeff necesită menținerea acestor trei tabele și aplicarea unei secvențe de consultări. Spre deosebire de algoritmul Luhn (aritmetică modulară simplă), Verhoeff nu poate fi calculat mental — necesită o implementare programatică.
De ce contează aceasta pentru detectarea datelor personale:
- Formatul de 12 cifre al My Number se potrivește cu multe numere de referință din documentele japoneze
- Fără validarea Verhoeff, instrumentele generează fals pozitive masive din numere de factură, coduri de referință și secvențe dată-oră
- Instrumentele care implementează doar cifre de control modulare simple (modulo 10 sau 11) nu pot valida My Number
Evaluarea PPC din 2024 a constatat că 63% dintre instrumentele implementate fie potrivesc tipare fără validare, fie implementează verificări modulare mai simple — generând simultan fals pozitive și fals negative.
Scriptul Japonez: Provocarea celor Trei Sisteme
Textul japonez folosește simultan trei sisteme de scriere:
Hiragana (ひらがな): Silabic fonetic folosit pentru particule gramaticale, terminații de conjugare verbală și cuvinte japoneze native. 46 de caractere de bază.
Katakana (カタカナ): Silabic fonetic folosit pentru cuvinte străine, termeni tehnici și accentuare. 46 de caractere de bază. Numele străine în japoneză sunt de obicei scrise în Katakana.
Kanji (漢字): Caractere logografice derivate din chineză, folosite pentru substantive, rădăcini verbale și nume. Japoneza folosește aproximativ 2.000 de Kanji comune.
Codificarea numelor japoneze: Numele unei singure persoane japoneze poate apărea în:
- Forma Kanji: 田中太郎
- Hiragana (ghid fonetic, furigana): たなかたろう
- Katakana (ca conținut străin): タナカ タロウ
- Romaji (script latin): Tanaka Taro sau TANAKA Taro (pentru documente internaționale)
Un instrument de date personale trebuie să recunoască toate cele patru forme ale aceluiași nume — sau riscă să omită majoritatea aparițiilor numelor în documentele japoneze.
Identificatori Naționali Japonezi în Afara My Number
Numărul permisului de conducere (運転免許証番号): 12 cifre începând cu un cod de prefectură de 2 cifre (10 pentru Tokyo, 62 pentru Osaka etc.). Codurile de prefectură permit validarea geografică a numărului de permis.
Pașaportul japonez (旅券番号): Format ICAO standard — 2 litere urmate de 7 cifre. Combinațiile de litere specifice Japoniei urmează convențiile de emitere.
Numărul certificatului de asigurare de sănătate (健康保険証記号番号): Formatul simbol + număr de asigurare variază în funcție de asigurător (Japonia are mai multe scheme de asigurare de sănătate pentru diferite categorii de angajare).
Numărul cardului de rezidență (在留カード番号): Pentru rezidenții străini — format 2 litere + 8 cifre + 2 litere, emis de Ministerul Justiției.
Standardul de Anonimizare al APPI
APPI-ul Japoniei creează un standard de anonimizare mai strict decât GDPR într-un aspect specific: standardul „informații anonimizate" (匿名加工情報) impune ca anonimizarea să fie verificabilă de terți și tehnic ireversibilă. Organizațiile care creează seturi de date anonimizate trebuie să:
- Șteargă sau înlocuiască toți identificatorii direcți (inclusiv My Number)
- Abordeze toate combinațiile de quasi-identificatori
- Aplice k-anonimitate sau tehnică echivalentă
- Publice măsurile luate (descriere generală, fără a dezvălui detalii specifice de implementare)
- Nu încerce re-identificarea datelor anonimizate
Ghidul AI al PPC din 2024 adaugă: organizațiile care folosesc seturi de date anonimizate pentru antrenarea AI nu pot folosi modelul AI rezultat pentru a încerca re-identificarea persoanelor din datele de antrenare — o interdicție explicită privind atacurile de inversare a modelului împotriva seturilor de antrenare anonimizate conform APPI.
Pentru procesarea conformă cu APPI: My Number cu validarea Verhoeff, NER în limba japoneză folosind spaCy ja_core_news cu tokenizare japoneză, recunoașterea numelor multi-script în forme Kanji/Kana/Romaji și validarea codului de prefectură al permisului de conducere sunt linia de bază tehnică pentru conformitatea PPC.
Surse: