By · Last updated 2026-06-06

Voltar ao BlogGDPR & Conformidade

Japão PPC: Validação Verhoeff do My Number e Detecção...

63% das ferramentas genéricas falham na detecção do My Number em documentos japoneses.

June 6, 20268 min de leitura
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan My Number: APPI e a Verificação Verhoeff

A Comissão de Proteção de Informações Pessoais do Japão (PPC) emitiu 45 decisões de aplicação em 2024. Ela também publicou as primeiras diretrizes japonesas de privacidade de IA. Um estudo da PPC descobriu que 63% das ferramentas NLP genéricas falham em detectar o My Number (マイナンバー) em documentos japoneses. Se sua equipe lida com dados de residentes japoneses, essa lacuna representa um risco direto sob a APPI.

O Que é o My Number

O Japão atribui a cada residente um identificador único de 12 dígitos. Este é o My Number, parte do Sistema de Número Individual (マイナンバー制度). Ele cobre impostos, pensões, plano de saúde e resposta a desastres. O My Number é um dado sensível sob a APPI. Você precisa de uma razão legal para coletá-lo ou compartilhá-lo.

O Problema da Verificação Verhoeff

O My Number usa o algoritmo Verhoeff para seu dígito de verificação. Verhoeff é um método matemático que detecta todos os erros de um único dígito. Ele também detecta todos os erros onde dois dígitos adjacentes são trocados. Ele precisa de três tabelas de consulta para funcionar. Você não pode calculá-lo mentalmente. Requer código.

Isso importa por dois motivos. Primeiro, o formato de 12 dígitos do Japão parece com muitos outros números. Códigos de fatura, IDs de referência e strings de data compartilham o mesmo formato. Sem uma verificação Verhoeff, uma ferramenta marcará os números errados. Segundo, a maioria das ferramentas não usa Verhoeff. Elas usam verificações mais simples de módulo 10 ou módulo 11. Essas não funcionam para o My Number.

O estudo da PPC descobriu que 63% das ferramentas pulam a verificação ou usam um método mais simples. Ambos os problemas ocorrem ao mesmo tempo: falsos positivos e falsos negativos.

O algoritmo de Luhn, usado para cartões de crédito, é mais simples. O My Number não usa Luhn. Ferramentas construídas para Luhn não funcionarão aqui.

Três Sistemas de Escrita, Um Nome

O texto japonês usa três sistemas de escrita ao mesmo tempo. Uma ferramenta deve lidar com os três.

Hiragana (ひらがな): Para gramática e palavras nativas. 46 caracteres base.

Katakana (カタカナ): Para palavras e nomes estrangeiros. 46 caracteres base. Nomes estrangeiros no Japão aparecem nesta escrita.

Kanji (漢字): Símbolos para substantivos e nomes. Cerca de 2.000 são de uso comum.

O nome de uma pessoa pode aparecer em quatro formas: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) e Romaji (Tanaka Taro). Uma ferramenta deve corresponder a todas as quatro. Se perder uma, perderá a maioria dos registros dessa pessoa.

Outros IDs Japoneses a Detectar

Carteira de motorista (運転免許証番号): 12 dígitos. Os dois primeiros indicam a prefeitura. Tóquio é 10. Osaka é 62. Isso permite que uma ferramenta verifique se o número é válido para essa região.

Passaporte (旅券番号): Duas letras mais sete dígitos. Formato ICAO. O Japão usa pares de letras específicos.

Cartão de seguro de saúde (健康保険証記号番号): Um símbolo mais um número. O formato depende do seguradora. O Seguro Nacional de Saúde (国民健康保険) e o Seguro Gerenciado pela Sociedade (協会けんぽ) usam formatos diferentes.

Cartão de residência (在留カード番号): Para residentes estrangeiros. Duas letras, oito dígitos, duas letras. O Ministério da Justiça emite este cartão.

A Regra de Anonimização da APPI

A APPI tem um padrão rigoroso para dados anonimizados chamado informações anonimizadas (匿名加工情報). Ele vai além do RGPD em uma área-chave. A anonimização deve ser verificável por terceiros e tecnicamente irreversível.

Para cumprir, uma organização deve:

  1. Remover todos os identificadores diretos, incluindo o My Number.
  2. Tratar todas as combinações de quasi-identificadores.
  3. Usar k-anonimato ou um método similar.
  4. Publicar uma descrição geral das medidas tomadas.
  5. Nunca tentar re-identificar os dados.

As diretrizes de IA da PPC de 2024 adicionam uma regra específica. Se você treinar uma IA com dados anonimizados, não pode usar esse modelo para re-identificar pessoas. Isso é uma proibição direta de ataques de inversão de modelo contra conjuntos de treinamento APPI.

Para atender aos padrões da PPC, você precisa de quatro coisas. Primeiro, validação Verhoeff para o My Number. Segundo, NER japonês usando ja_core_news com tokenização adequada. Terceiro, correspondência de nomes em Kanji, Kana e Romaji. Quarto, verificações de código de prefeitura para números de carteira de motorista.

A Índia usa Aadhaar, que também requer validação Verhoeff. O guia de conformidade técnica DPDPA da Índia cobre isso em detalhes. Para detecção de identificadores nacionais em vários países, veja detecção de IDs fiscais da UE sob o RGPD.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.