A Comissão de Proteção de Informações Pessoais do Japão (PPC) aplica a Lei de Proteção de Informações Pessoais (APPI), com emendas de 2022 que expandiram significativamente as proteções, incluindo novas disposições para informações pseudonimizadas, restrições de transferência transfronteiriça e governança de dados de treinamento de IA. A PPC emitiu 45 decisões de aplicação em 2024 e publicou as primeiras diretrizes de privacidade específicas para IA no Japão.
APPI 2022: O que Mudou
As emendas da APPI de 2022 exigem que 2,4 milhões de empresas japonesas atualizem suas políticas de privacidade e implementem novos procedimentos de manuseio:
Informações pseudonimizadas (仮名加工情報): Uma nova categoria — dados pessoais processados para remover informações identificáveis, mas onde a reidentificação é teoricamente possível com uma chave separada. Informações pseudonimizadas podem ser compartilhadas internamente sem os mesmos requisitos de consentimento que dados pessoais, mas não podem ser fornecidas a terceiros. Isso cria uma categoria intermediária específica do Japão entre dados pessoais e informações anonimizadas.
Informações anonimizadas (匿名加工情報): Devem ser processadas de modo que a reidentificação seja tecnicamente impossível — verificada por um terceiro qualificado. O padrão de anonimização do Japão é mais rigoroso do que o do GDPR em um aspecto chave: a verificação por terceiros é obrigatória, não opcional.
Transferências transfronteiriças: As emendas de 2022 fortaleceram as restrições de transferência, exigindo que transferências para países terceiros forneçam um nível de proteção "equivalente a" aos padrões do Japão. A PPC mantém uma lista de países aprovados. A UE tem adequação com o Japão sob a estrutura da APPI.
Dados de treinamento de IA: A PPC emitiu diretrizes de 2024 abordando explicitamente conjuntos de dados de treinamento de IA. Requisitos principais:
- Dados pessoais usados para treinamento de IA devem ser genuinamente anonimizados (atendendo ao rigoroso padrão verificado por terceiros do Japão) ou processados sob uma base legal específica (tipicamente consentimento)
- A "exceção de processamento estatístico" na APPI se aplica ao treinamento de IA apenas quando o modelo resultante não pode ser usado para identificar indivíduos a partir dos resultados
- Empresas de LLM que treinam em dados pessoais japoneses extraídos de sites devem demonstrar uma base legítima para a coleta
My Number: O Identificador Nacional do Japão
O My Number do Japão (マイナンバー) — oficialmente o Número Individual (個人番号) — é um número de identificação nacional de 12 dígitos emitido a todos os residentes do Japão, incluindo estrangeiros. Atribuído desde 2016 a 1,36 bilhão de residentes japoneses, o My Number é usado para administração fiscal, segurança social e resposta a desastres.
Estrutura técnica: O My Number utiliza o algoritmo de Verhoeff para o cálculo do dígito de verificação — o mesmo esquema complexo de detecção de erros baseado em teoria de grupos usado para o Aadhaar na Índia. Este algoritmo é significativamente mais complexo de implementar do que o algoritmo de Luhn (usado para o personnummer sueco, SIN) e os algoritmos baseados em módulo usados pela maioria dos identificadores nacionais europeus.
Desafios de detecção:
- A correspondência de padrões genéricos de números de 12 dígitos gera enormes falsos positivos em documentos japoneses (datas, códigos postais combinados com números de telefone, números de faturas)
- A validação de Verhoeff requer uma implementação completa das tabelas de operações de grupo — não é um simples cálculo aritmético modular
- O My Number aparece em caracteres japoneses ao lado dos dígitos em alguns contextos de documentos
A avaliação técnica de 2024 da PPC descobriu que 63% das ferramentas genéricas de NLP implantadas falham em detectar o My Number com precisão em documentos japoneses.
Processamento de Linguagem Japonesa: O Desafio do Script
O texto japonês usa três sistemas de escrita simultaneamente — Hiragana, Katakana e Kanji (caracteres chineses) — além do script romano (Romaji) para alguns contextos. Nomes podem aparecer em qualquer combinação desses scripts, e o mesmo nome pode aparecer de forma diferente em diferentes contextos.
Desafios de NER específicos do japonês:
- O reconhecimento de nomes requer modelos de linguagem em japonês (spaCy ja_core_news com tokenização em japonês)
- O japonês não usa espaços entre palavras — a tokenização em si é uma etapa de processamento distinta que requer tokenizadores cientes do japonês
- Nomes de pessoas são tipicamente escritos em Kanji com furigana (guia fonético em Hiragana/Katakana) — as ferramentas devem detectar tanto a forma em Kanji quanto a forma fonética
- Nomes de organizações japonesas (会社名, 株式会社) requerem padrões de reconhecimento de organizações específicos do japonês
Outros Identificadores Japoneses
Número da carteira de motorista: Formato de 12 dígitos com prefixo de código de prefeitura. Os códigos de prefeitura são padronizados (Tóquio = 10, Osaka = 62, etc.), permitindo a validação do componente geográfico.
Passaporte japonês: Formato ICAO padrão com convenções de emissão específicas do Japão.
Certificado de Seguro de Saúde (健康保険証): Símbolo do seguro (記号) + formato numérico, com variações de formato específicas do emissor em vários esquemas de seguro de saúde do Japão.
Cartão de Residência (在留カード): Formato para residentes estrangeiros — 2 letras + 8 dígitos + 2 letras, com validação específica do MOJ.
Status da Transferência de Dados Japão-UE
O Japão e a UE têm decisões de adequação mútua — fluxos de dados pessoais entre a UE e o Japão ocorrem sem necessidade de mecanismos adicionais de transferência. Este arranjo bilateral (em vigor desde 2019) torna o Japão um dos poucos países não europeus com plena adequação da UE.
A adequação mútua cobre dados pessoais de negócios padrão. Certas categorias — dados de saúde sensíveis, registros criminais — requerem salvaguardas adicionais mesmo sob o arranjo de adequação.
Para organizações que processam dados pessoais japoneses: A detecção do My Number com validação de Verhoeff é o requisito mais tecnicamente exigente, seguido pelo suporte a NER em japonês usando modelos treinados em texto em script japonês. O processamento bilíngue em japonês/inglês é cada vez mais exigido para organizações multinacionais com operações no Japão.
Fontes: