Japan My Number: APPI e a Verificação Verhoeff

A Comissão de Proteção de Informações Pessoais do Japão (PPC) emitiu 45 decisões de aplicação em 2024. Ela também publicou as primeiras diretrizes japonesas de privacidade de IA. Um estudo da PPC descobriu que 63% das ferramentas NLP genéricas falham em detectar o My Number (マイナンバー) em documentos japoneses. Se sua equipe lida com dados de residentes japoneses, essa lacuna representa um risco direto sob a APPI.

O Que é o My Number

O Japão atribui a cada residente um identificador único de 12 dígitos. Este é o My Number, parte do Sistema de Número Individual (マイナンバー制度). Ele cobre impostos, pensões, plano de saúde e resposta a desastres. O My Number é um dado sensível sob a APPI. Você precisa de uma razão legal para coletá-lo ou compartilhá-lo.

O Problema da Verificação Verhoeff

O My Number usa o algoritmo Verhoeff para seu dígito de verificação. Verhoeff é um método matemático que detecta todos os erros de um único dígito. Ele também detecta todos os erros onde dois dígitos adjacentes são trocados. Ele precisa de três tabelas de consulta para funcionar. Você não pode calculá-lo mentalmente. Requer código.

Isso importa por dois motivos. Primeiro, o formato de 12 dígitos do Japão parece com muitos outros números. Códigos de fatura, IDs de referência e strings de data compartilham o mesmo formato. Sem uma verificação Verhoeff, uma ferramenta marcará os números errados. Segundo, a maioria das ferramentas não usa Verhoeff. Elas usam verificações mais simples de módulo 10 ou módulo 11. Essas não funcionam para o My Number.

O estudo da PPC descobriu que 63% das ferramentas pulam a verificação ou usam um método mais simples. Ambos os problemas ocorrem ao mesmo tempo: falsos positivos e falsos negativos.

O algoritmo de Luhn, usado para cartões de crédito, é mais simples. O My Number não usa Luhn. Ferramentas construídas para Luhn não funcionarão aqui.

Três Sistemas de Escrita, Um Nome

O texto japonês usa três sistemas de escrita ao mesmo tempo. Uma ferramenta deve lidar com os três.

Hiragana (ひらがな): Para gramática e palavras nativas. 46 caracteres base.

Katakana (カタカナ): Para palavras e nomes estrangeiros. 46 caracteres base. Nomes estrangeiros no Japão aparecem nesta escrita.

Kanji (漢字): Símbolos para substantivos e nomes. Cerca de 2.000 são de uso comum.

O nome de uma pessoa pode aparecer em quatro formas: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカタロウ) e Romaji (Tanaka Taro). Uma ferramenta deve corresponder a todas as quatro. Se perder uma, perderá a maioria dos registros dessa pessoa.

Outros IDs Japoneses a Detectar

Carteira de motorista (運転免許証番号): 12 dígitos. Os dois primeiros indicam a prefeitura. Tóquio é 10. Osaka é 62. Isso permite que uma ferramenta verifique se o número é válido para essa região.

Passaporte (旅券番号): Duas letras mais sete dígitos. Formato ICAO. O Japão usa pares de letras específicos.

Cartão de seguro de saúde (健康保険証記号番号): Um símbolo mais um número. O formato depende do seguradora. O Seguro Nacional de Saúde (国民健康保険) e o Seguro Gerenciado pela Sociedade (協会けんぽ) usam formatos diferentes.

Cartão de residência (在留カード番号): Para residentes estrangeiros. Duas letras, oito dígitos, duas letras. O Ministério da Justiça emite este cartão.

A Regra de Anonimização da APPI

A APPI tem um padrão rigoroso para dados anonimizados chamado informações anonimizadas (匿名加工情報). Ele vai além do RGPD em uma área-chave. A anonimização deve ser verificável por terceiros e tecnicamente irreversível.

Para cumprir, uma organização deve:

Remover todos os identificadores diretos, incluindo o My Number.
Tratar todas as combinações de quasi-identificadores.
Usar k-anonimato ou um método similar.
Publicar uma descrição geral das medidas tomadas.
Nunca tentar re-identificar os dados.

As diretrizes de IA da PPC de 2024 adicionam uma regra específica. Se você treinar uma IA com dados anonimizados, não pode usar esse modelo para re-identificar pessoas. Isso é uma proibição direta de ataques de inversão de modelo contra conjuntos de treinamento APPI.

Para atender aos padrões da PPC, você precisa de quatro coisas. Primeiro, validação Verhoeff para o My Number. Segundo, NER japonês usando ja_core_news com tokenização adequada. Terceiro, correspondência de nomes em Kanji, Kana e Romaji. Quarto, verificações de código de prefeitura para números de carteira de motorista.

A Índia usa Aadhaar, que também requer validação Verhoeff. O guia de conformidade técnica DPDPA da Índia cobre isso em detalhes. Para detecção de identificadores nacionais em vários países, veja detecção de IDs fiscais da UE sob o RGPD.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

Iniciar Teste Gratuito Ver Recursos

Japão PPC: Validação Verhoeff do My Number e Detecção...

Japan My Number: APPI e a Verificação Verhoeff

O Que é o My Number

O Problema da Verificação Verhoeff

Três Sistemas de Escrita, Um Nome

Outros IDs Japoneses a Detectar

A Regra de Anonimização da APPI

Fontes

Artigos Relacionados

Por que Ferramentas PII Auto-Hospedadas Falham em...

O que o Presidio Perde: Os 220+ Tipos de Entidade...

O Custo de Conformidade da Redação Inconsistente...

Pronto para proteger seus dados?

Japão PPC: Validação Verhoeff do My Number e Detecção...

Japan My Number: APPI e a Verificação Verhoeff

O Que é o My Number

O Problema da Verificação Verhoeff

Três Sistemas de Escrita, Um Nome

Outros IDs Japoneses a Detectar

A Regra de Anonimização da APPI

Fontes

Artigos Relacionados

Por que Ferramentas PII Auto-Hospedadas Falham em...

O que o Presidio Perde: Os 220+ Tipos de Entidade...

O Custo de Conformidade da Redação Inconsistente...

Pronto para proteger seus dados?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow