PPC Japonia și APPI: Conformitate pentru date de antrenare AI
PPC-ul Japoniei aplică APPI. Amendamentele din 2022 au modificat legea mai profund decât orice actualizare anterioară. Au introdus reguli pentru înregistrări pseudonimizate, transferuri transfrontaliere și seturi de date de antrenare AI. PPC a emis 45 de decizii în 2024 și a publicat în același an primul ghid japonez specific privind confidențialitatea în AI.
Dacă firma dumneavoastră antrenează modele pe text japonez sau deține înregistrări ale utilizatorilor japonezi, aceste reguli se aplică deja.
Ce au schimbat amendamentele din 2022
2,4 milioane de firme japoneze au trebuit să actualizeze politicile de confidențialitate și să revizuiască procedurile de prelucrare.
Informații pseudonimizate (仮名加工情報): O nouă categorie intermediară. Acoperă înregistrările personale din care s-au eliminat identificatorii direcți. Re-identificarea rămâne posibilă dacă se deține cheia. Aceste înregistrări pot circula în interiorul organizației fără consimțământ complet, dar nu pot fi transmise terților. GDPR nu prevede o astfel de categorie.
Informații anonimizate (匿名加工情報): Re-identificarea trebuie să fie tehnic imposibilă. Un terț calificat trebuie să confirme aceasta. Standardul japonez este mai exigent decât cel al GDPR în acest punct. GDPR face această revizuire opțională; APPI o face obligatorie.
Transferuri transfrontaliere: Transferurile către alte țări trebuie să atingă standardul de protecție al Japoniei. PPC menține o listă de țări aprobate. UE se află pe această listă.
Seturi de date AI: Ghidul PPC din 2024 a abordat direct acest subiect.
- Seturile de date de antrenare trebuie să fie complet anonimizate sau să aibă un temei juridic valabil — de obicei consimțământul.
- Excepția de prelucrare se aplică doar dacă modelul nu poate identifica persoane din datele de ieșire.
- Dezvoltatorii de LLM care antrenează pe înregistrări japoneze extrase de pe site-uri web trebuie să demonstreze un temei juridic valabil de colectare.
Pentru o imagine completă a obligațiilor de aliniere a transferurilor transfrontaliere, consultați /legal/compliance.
My Number: Identificatorul național al Japoniei
My Number (マイナンバー) este un număr național de identificare cu 12 cifre. Japonia îl atribuie tuturor rezidenților. Cetățenii străini primesc și ei unul. Sistemul funcționează din 2016 și acoperă impozitele, asigurările sociale și răspunsul la dezastre.
Cum funcționează cifra de control: My Number folosește metoda Verhoeff. Aceasta este o schemă matematică de verificare a erorilor. Este mai complexă de implementat decât Luhn — metoda folosită pentru personnummer-ul suedez și SIN-ul canadian. Majoritatea actelor de identitate europene folosesc calcule modulare mai simple.
De ce detectarea este dificilă: O scanare după șiruri de 12 cifre nu este suficientă. Datele calendaristice, codurile poștale și codurile de factură arată la fel. Aveți nevoie de logica completă Verhoeff pentru a le distinge. Regex simplu nu este suficient.
Revizuirea PPC din 2024 a evidențiat o concluzie îngrijorătoare: 63% dintre instrumentele NLP generice nu reușesc să detecteze My Number în înregistrările japoneze.
Vedeți cum gestionează anonym.legal My Number la /entities.
Trei sisteme de scriere simultan
Japoneza folosește Hiragana, Katakana și Kanji în același timp. Caracterele romane apar și ele în unele contexte. Același nume poate apărea diferit în înregistrări diferite. Instrumentele construite pentru text în caractere latine eșuează în japoneză fără suport suplimentar.
Ce înseamnă aceasta pentru detectarea numelor:
- NER în japoneză necesită modele antrenate pe text japonez. Folosiți spaCy ja_core_news.
- Japoneza nu are spații între cuvinte. Segmentarea cuvintelor este un pas separat și necesită instrumente specifice pentru japoneză.
- Numele de persoane apar în Kanji cu ghiduri de pronunție în Hiragana sau Katakana. Instrumentele trebuie să detecteze ambele forme.
- Numele de companii (会社名, 株式会社) necesită reguli specifice japoneze.
Pentru NER în limbile din Asia-Pacific, consultați /docs/faq.
Alte formate de documente japoneze
Permis de conducere: 12 cifre cu un cod prefix pentru regiunea de eliberare. Codurile sunt fixe — Tokyo este 10, Osaka este 62. Codul regional este verificabil.
Pașaport: Format ICAO standard cu reguli de eliberare specifice Japoniei.
Card de asigurări de sănătate (健康保険証): Simbol (記号) plus număr. Formatul variază în funcție de asigurător.
Card de rezidență (在留カード): Pentru rezidenții străini. Format: două litere, opt cifre, două litere. Ministerul Justiției le emite.
Statutul transferului de date Japonia–UE
Japonia și UE au recunoaștere reciprocă de adecvare din 2019. Înregistrările personale circulă între UE și Japonia fără pași suplimentari. Japonia este una dintre puținele țări non-europene cu adecvare deplină UE.
Acordul acoperă înregistrările personale standard. Înregistrările sensibile privind sănătatea și istoricul penal necesită garanții suplimentare chiar și în cadrul adecvării. Firmele care transferă astfel de înregistrări trebuie să documenteze pașii suplimentari pe care îi aplică.
Revizuiți obligațiile de transfer la /security-compliance.
Lista de verificare pentru conformitatea cu legislația japoneză
Începeți de aici dacă gestionați înregistrări personale japoneze:
- Detectarea My Number cu logica cifrei de control Verhoeff.
- NER în japoneză cu modele antrenate pe text în caractere japoneze — nu modele pentru caractere latine.
- Suport pentru formele de nume în Kanji, Hiragana și Katakana, plus variantele cu ghiduri de pronunție.
- Detectarea permisului de conducere cu verificarea codurilor regionale.
- Detectarea cardului de rezidență cu logica formatului MOJ.
- Detectarea cardului de asigurări de sănătate pentru variantele tuturor asigurătorilor.
- Un temei juridic valabil pentru fiecare set de date de antrenare AI care conține înregistrări personale.
- Revizuire de terță parte pentru orice înregistrări clasificate ca anonimizate conform APPI.
- Garanții suplimentare pentru înregistrările sensibile transferate în temeiul acordului de adecvare UE–Japonia.
Consultați /docs/glossary pentru definițiile termenilor APPI utilizați în acest ghid.