A Comissão de Proteção de Informações Pessoais do Japão (PPC) emitiu 45 decisões de execução em 2024 e publicou a primeira orientação de privacidade específica para IA do Japão. A avaliação técnica de 2024 da PPC descobriu que 63% das ferramentas de NLP genéricas implantadas para processamento de documentos japoneses falham em detectar com precisão o My Number (マイナンバー) — o número de identificação nacional de 12 dígitos do Japão. Para organizações com operações no Japão ou que processam dados de nacionais japoneses, essa lacuna cria uma exposição direta à conformidade com o APPI.
My Number: O Desafio da Validação Verhoeff
O Sistema de Número Individual do Japão (マイナンバー制度, Sistema My Number) atribui um número único de 12 dígitos a cada residente do Japão (1,36 bilhão de usuários). O My Number é utilizado para:
- Administração fiscal (declarações de impostos, declarações de retenção)
- Segurança social (inscrição em pensões, seguro de saúde)
- Resposta a desastres (identificação em emergências)
Algoritmo Verhoeff: O dígito de verificação do My Number utiliza o algoritmo Verhoeff — um algoritmo de detecção de erros baseado em teoria de grupos que pode detectar todos os erros de um dígito e todos os erros de transposição adjacentes. O algoritmo utiliza três tabelas de consulta: uma tabela de multiplicação de grupo diédrico (D5), uma tabela inversa e uma tabela de permutação.
A implementação do Verhoeff requer a manutenção dessas três tabelas e a aplicação de uma sequência de consultas. Ao contrário do algoritmo Luhn (aritmética modular simples), o Verhoeff não pode ser calculado mentalmente — requer uma implementação programática.
Por que isso é importante para a detecção de PII:
- O formato de 12 dígitos do My Number corresponde a muitos números de referência de documentos japoneses
- Sem a validação Verhoeff, as ferramentas geram enormes falsos positivos a partir de números de fatura, códigos de referência de documentos e sequências de data-hora
- Ferramentas que implementam apenas dígitos de verificação modulares básicos (módulo 10 ou 11) não podem validar o My Number e perderão números que requerem Verhoeff para verificação
A avaliação de 2024 da PPC descobriu que 63% das ferramentas implantadas ou combinam padrões sem validação ou implementam verificações modulares mais simples — gerando falsos positivos e falsos negativos simultaneamente.
Script Japonês: O Desafio dos Três Sistemas
O texto japonês utiliza três sistemas de escrita simultaneamente:
Hiragana (ひらがな): Silabário fonético usado para partículas gramaticais, terminações de conjugação verbal e palavras nativas japonesas. 46 caracteres base.
Katakana (カタカナ): Silabário fonético usado para palavras estrangeiras, termos técnicos e ênfase. 46 caracteres base. Nomes estrangeiros em japonês são tipicamente escritos em Katakana.
Kanji (漢字): Caracteres logográficos derivados do chinês, usados para substantivos, raízes verbais e nomes. O japonês utiliza aproximadamente 2.000 Kanji comuns.
Codificação de nomes japoneses: O nome de uma única pessoa japonesa pode aparecer em:
- Forma Kanji: 田中太郎
- Hiragana (guia fonético, furigana): たなかたろう
- Katakana (como conteúdo estrangeiro): タナカ タロウ
- Romaji (script latino): Tanaka Taro ou TANAKA Taro (para documentos internacionais)
Uma ferramenta de PII deve reconhecer todas as quatro formas do mesmo nome — ou correr o risco de perder a maioria das ocorrências de nomes em documentos japoneses.
Identificadores Nacionais Japoneses Além do My Number
Número da carteira de motorista (運転免許証番号): 12 dígitos começando com um código de prefeitura de 2 dígitos (10 para Tóquio, 62 para Osaka, etc.). Os códigos de prefeitura permitem a validação geográfica do número da licença.
Passaporte japonês (旅券番号): Formato padrão ICAO — 2 letras seguidas de 7 dígitos. Combinações de letras específicas do Japão seguem convenções de emissão.
Número do Certificado de Seguro de Saúde (健康保険証記号番号): O formato do símbolo de seguro + número varia por seguradora (o Japão tem múltiplos esquemas de seguro de saúde para diferentes categorias de emprego). O Seguro Comum (国民健康保険) difere do Seguro Gerido pela Sociedade (協会けんぽ).
Número do Cartão de Residência (在留カード番号): Para residentes estrangeiros — formato 2 letras + 8 dígitos + 2 letras, emitido pelo Ministério da Justiça.
Padrão de Informação Anonimizada do APPI
O APPI do Japão cria um padrão de anonimização mais rigoroso do que o GDPR de uma maneira específica: o padrão de "informação anonimizada" (匿名加工情報) exige que a anonimização seja verificável por terceiros e tecnicamente irreversível. Organizações que criam conjuntos de dados anonimizados devem:
- Excluir ou substituir todos os identificadores diretos (incluindo o My Number)
- Abordar todas as combinações de quasi-identificadores
- Aplicar k-anonimidade ou técnica equivalente
- Publicar as medidas tomadas (descrição geral, sem revelar detalhes específicos de implementação)
- Não tentar reidentificar os dados anonimizados
A orientação de IA de 2024 da PPC acrescenta: organizações que usam conjuntos de dados anonimizados para treinamento de IA não podem usar o modelo de IA resultante para tentar reidentificar indivíduos a partir dos dados de treinamento — uma proibição explícita contra ataques de inversão de modelo em conjuntos de treinamento anonimizados pelo APPI.
Para processamento em conformidade com o APPI: My Number com validação Verhoeff, NER em japonês usando spaCy ja_core_news com tokenização em japonês, reconhecimento de nomes em múltiplos scripts através das formas Kanji/Kana/Romaji, e validação do código da prefeitura da carteira de motorista são a base técnica para a conformidade com a PPC.
Fontes: