Voltar ao BlogGDPR & Conformidade

Japão PPC: Validação Verhoeff do My Number e Detecção de PII em Japonês para Conformidade com o APPI

63% das ferramentas genéricas falham na detecção do My Number em documentos japoneses. O My Number utiliza o algoritmo Verhoeff — o checksum de identificação nacional mais complexo da Ásia. O NER em script japonês requer modelos de linguagem dedicados.

March 7, 20268 min de leitura
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

A Comissão de Proteção de Informações Pessoais do Japão (PPC) emitiu 45 decisões de execução em 2024 e publicou a primeira orientação de privacidade específica para IA do Japão. A avaliação técnica de 2024 da PPC descobriu que 63% das ferramentas de NLP genéricas implantadas para processamento de documentos japoneses falham em detectar com precisão o My Number (マイナンバー) — o número de identificação nacional de 12 dígitos do Japão. Para organizações com operações no Japão ou que processam dados de nacionais japoneses, essa lacuna cria uma exposição direta à conformidade com o APPI.

My Number: O Desafio da Validação Verhoeff

O Sistema de Número Individual do Japão (マイナンバー制度, Sistema My Number) atribui um número único de 12 dígitos a cada residente do Japão (1,36 bilhão de usuários). O My Number é utilizado para:

  • Administração fiscal (declarações de impostos, declarações de retenção)
  • Segurança social (inscrição em pensões, seguro de saúde)
  • Resposta a desastres (identificação em emergências)

Algoritmo Verhoeff: O dígito de verificação do My Number utiliza o algoritmo Verhoeff — um algoritmo de detecção de erros baseado em teoria de grupos que pode detectar todos os erros de um dígito e todos os erros de transposição adjacentes. O algoritmo utiliza três tabelas de consulta: uma tabela de multiplicação de grupo diédrico (D5), uma tabela inversa e uma tabela de permutação.

A implementação do Verhoeff requer a manutenção dessas três tabelas e a aplicação de uma sequência de consultas. Ao contrário do algoritmo Luhn (aritmética modular simples), o Verhoeff não pode ser calculado mentalmente — requer uma implementação programática.

Por que isso é importante para a detecção de PII:

  • O formato de 12 dígitos do My Number corresponde a muitos números de referência de documentos japoneses
  • Sem a validação Verhoeff, as ferramentas geram enormes falsos positivos a partir de números de fatura, códigos de referência de documentos e sequências de data-hora
  • Ferramentas que implementam apenas dígitos de verificação modulares básicos (módulo 10 ou 11) não podem validar o My Number e perderão números que requerem Verhoeff para verificação

A avaliação de 2024 da PPC descobriu que 63% das ferramentas implantadas ou combinam padrões sem validação ou implementam verificações modulares mais simples — gerando falsos positivos e falsos negativos simultaneamente.

Script Japonês: O Desafio dos Três Sistemas

O texto japonês utiliza três sistemas de escrita simultaneamente:

Hiragana (ひらがな): Silabário fonético usado para partículas gramaticais, terminações de conjugação verbal e palavras nativas japonesas. 46 caracteres base.

Katakana (カタカナ): Silabário fonético usado para palavras estrangeiras, termos técnicos e ênfase. 46 caracteres base. Nomes estrangeiros em japonês são tipicamente escritos em Katakana.

Kanji (漢字): Caracteres logográficos derivados do chinês, usados para substantivos, raízes verbais e nomes. O japonês utiliza aproximadamente 2.000 Kanji comuns.

Codificação de nomes japoneses: O nome de uma única pessoa japonesa pode aparecer em:

  • Forma Kanji: 田中太郎
  • Hiragana (guia fonético, furigana): たなかたろう
  • Katakana (como conteúdo estrangeiro): タナカ タロウ
  • Romaji (script latino): Tanaka Taro ou TANAKA Taro (para documentos internacionais)

Uma ferramenta de PII deve reconhecer todas as quatro formas do mesmo nome — ou correr o risco de perder a maioria das ocorrências de nomes em documentos japoneses.

Identificadores Nacionais Japoneses Além do My Number

Número da carteira de motorista (運転免許証番号): 12 dígitos começando com um código de prefeitura de 2 dígitos (10 para Tóquio, 62 para Osaka, etc.). Os códigos de prefeitura permitem a validação geográfica do número da licença.

Passaporte japonês (旅券番号): Formato padrão ICAO — 2 letras seguidas de 7 dígitos. Combinações de letras específicas do Japão seguem convenções de emissão.

Número do Certificado de Seguro de Saúde (健康保険証記号番号): O formato do símbolo de seguro + número varia por seguradora (o Japão tem múltiplos esquemas de seguro de saúde para diferentes categorias de emprego). O Seguro Comum (国民健康保険) difere do Seguro Gerido pela Sociedade (協会けんぽ).

Número do Cartão de Residência (在留カード番号): Para residentes estrangeiros — formato 2 letras + 8 dígitos + 2 letras, emitido pelo Ministério da Justiça.

Padrão de Informação Anonimizada do APPI

O APPI do Japão cria um padrão de anonimização mais rigoroso do que o GDPR de uma maneira específica: o padrão de "informação anonimizada" (匿名加工情報) exige que a anonimização seja verificável por terceiros e tecnicamente irreversível. Organizações que criam conjuntos de dados anonimizados devem:

  1. Excluir ou substituir todos os identificadores diretos (incluindo o My Number)
  2. Abordar todas as combinações de quasi-identificadores
  3. Aplicar k-anonimidade ou técnica equivalente
  4. Publicar as medidas tomadas (descrição geral, sem revelar detalhes específicos de implementação)
  5. Não tentar reidentificar os dados anonimizados

A orientação de IA de 2024 da PPC acrescenta: organizações que usam conjuntos de dados anonimizados para treinamento de IA não podem usar o modelo de IA resultante para tentar reidentificar indivíduos a partir dos dados de treinamento — uma proibição explícita contra ataques de inversão de modelo em conjuntos de treinamento anonimizados pelo APPI.

Para processamento em conformidade com o APPI: My Number com validação Verhoeff, NER em japonês usando spaCy ja_core_news com tokenização em japonês, reconhecimento de nomes em múltiplos scripts através das formas Kanji/Kana/Romaji, e validação do código da prefeitura da carteira de motorista são a base técnica para a conformidade com a PPC.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.