Japan My Number: APPI e a Verificação Verhoeff
A Comissão de Proteção de Informações Pessoais do Japão (PPC) emitiu 45 decisões de aplicação em 2024. Ela também publicou as primeiras diretrizes japonesas de privacidade de IA. Um estudo da PPC descobriu que 63% das ferramentas NLP genéricas falham em detectar o My Number (マイナンバー) em documentos japoneses. Se sua equipe lida com dados de residentes japoneses, essa lacuna representa um risco direto sob a APPI.
O Que é o My Number
O Japão atribui a cada residente um identificador único de 12 dígitos. Este é o My Number, parte do Sistema de Número Individual (マイナンバー制度). Ele cobre impostos, pensões, plano de saúde e resposta a desastres. O My Number é um dado sensível sob a APPI. Você precisa de uma razão legal para coletá-lo ou compartilhá-lo.
O Problema da Verificação Verhoeff
O My Number usa o algoritmo Verhoeff para seu dígito de verificação. Verhoeff é um método matemático que detecta todos os erros de um único dígito. Ele também detecta todos os erros onde dois dígitos adjacentes são trocados. Ele precisa de três tabelas de consulta para funcionar. Você não pode calculá-lo mentalmente. Requer código.
Isso importa por dois motivos. Primeiro, o formato de 12 dígitos do Japão parece com muitos outros números. Códigos de fatura, IDs de referência e strings de data compartilham o mesmo formato. Sem uma verificação Verhoeff, uma ferramenta marcará os números errados. Segundo, a maioria das ferramentas não usa Verhoeff. Elas usam verificações mais simples de módulo 10 ou módulo 11. Essas não funcionam para o My Number.
O estudo da PPC descobriu que 63% das ferramentas pulam a verificação ou usam um método mais simples. Ambos os problemas ocorrem ao mesmo tempo: falsos positivos e falsos negativos.
O algoritmo de Luhn, usado para cartões de crédito, é mais simples. O My Number não usa Luhn. Ferramentas construídas para Luhn não funcionarão aqui.
Três Sistemas de Escrita, Um Nome
O texto japonês usa três sistemas de escrita ao mesmo tempo. Uma ferramenta deve lidar com os três.
Hiragana (ひらがな): Para gramática e palavras nativas. 46 caracteres base.
Katakana (カタカナ): Para palavras e nomes estrangeiros. 46 caracteres base. Nomes estrangeiros no Japão aparecem nesta escrita.
Kanji (漢字): Símbolos para substantivos e nomes. Cerca de 2.000 são de uso comum.
O nome de uma pessoa pode aparecer em quatro formas: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) e Romaji (Tanaka Taro). Uma ferramenta deve corresponder a todas as quatro. Se perder uma, perderá a maioria dos registros dessa pessoa.
Outros IDs Japoneses a Detectar
Carteira de motorista (運転免許証番号): 12 dígitos. Os dois primeiros indicam a prefeitura. Tóquio é 10. Osaka é 62. Isso permite que uma ferramenta verifique se o número é válido para essa região.
Passaporte (旅券番号): Duas letras mais sete dígitos. Formato ICAO. O Japão usa pares de letras específicos.
Cartão de seguro de saúde (健康保険証記号番号): Um símbolo mais um número. O formato depende do seguradora. O Seguro Nacional de Saúde (国民健康保険) e o Seguro Gerenciado pela Sociedade (協会けんぽ) usam formatos diferentes.
Cartão de residência (在留カード番号): Para residentes estrangeiros. Duas letras, oito dígitos, duas letras. O Ministério da Justiça emite este cartão.
A Regra de Anonimização da APPI
A APPI tem um padrão rigoroso para dados anonimizados chamado informações anonimizadas (匿名加工情報). Ele vai além do RGPD em uma área-chave. A anonimização deve ser verificável por terceiros e tecnicamente irreversível.
Para cumprir, uma organização deve:
- Remover todos os identificadores diretos, incluindo o My Number.
- Tratar todas as combinações de quasi-identificadores.
- Usar k-anonimato ou um método similar.
- Publicar uma descrição geral das medidas tomadas.
- Nunca tentar re-identificar os dados.
As diretrizes de IA da PPC de 2024 adicionam uma regra específica. Se você treinar uma IA com dados anonimizados, não pode usar esse modelo para re-identificar pessoas. Isso é uma proibição direta de ataques de inversão de modelo contra conjuntos de treinamento APPI.
Para atender aos padrões da PPC, você precisa de quatro coisas. Primeiro, validação Verhoeff para o My Number. Segundo, NER japonês usando ja_core_news com tokenização adequada. Terceiro, correspondência de nomes em Kanji, Kana e Romaji. Quarto, verificações de código de prefeitura para números de carteira de motorista.
A Índia usa Aadhaar, que também requer validação Verhoeff. O guia de conformidade técnica DPDPA da Índia cobre isso em detalhes. Para detecção de identificadores nacionais em vários países, veja detecção de IDs fiscais da UE sob o RGPD.