Japão PPC e APPI: Conformidade em Dados de Treino de IA
A PPC do Japão aplica a APPI. As emendas de 2022 mudaram a lei mais do que qualquer atualização anterior. Acrescentaram regras para dados pseudonimizados, transferências transfronteiriças e conjuntos de treino de IA. A PPC emitiu 45 decisões em 2024. Também publicou o primeiro guia de privacidade de IA específico do Japão nesse ano.
Se a sua empresa treina modelos em texto japonês ou detém dados de utilizadores japoneses, estas regras aplicam-se agora.
O que as Emendas de 2022 Mudaram
2,4 milhões de empresas japonesas tiveram de atualizar as suas regras de privacidade e rever os passos de tratamento.
Informação pseudonimizada (仮名加工情報): Uma nova categoria intermédia. Cobre registos com identificadores diretos removidos. A re-identificação ainda é possível com uma chave. Estes registos podem circular dentro de uma organização sem consentimento total. Não podem ser enviados a terceiros. O RGPD não tem esta categoria.
Informação anonimizada (匿名加工情報): A re-identificação deve ser tecnicamente impossível. Uma terceira parte qualificada deve confirmar isso. O padrão do Japão é mais exigente do que o RGPD neste ponto. O RGPD torna essa revisão opcional. A APPI torna-a obrigatória.
Transferências transfronteiriças: As transferências para outros países devem cumprir o padrão de proteção do Japão. A PPC mantém uma lista de países aprovados. A UE está nessa lista.
Conjuntos de treino de IA: As diretrizes da PPC de 2024 abordaram isso diretamente.
- Os conjuntos de treino devem estar completamente anonimizados ou assentar numa base legal válida — geralmente o consentimento.
- A exceção de tratamento estatístico só se aplica se o modelo não puder identificar pessoas a partir dos seus resultados.
- Os programadores de LLM que treinam com dados japoneses recolhidos por scraping devem apresentar uma base de recolha válida.
Para uma visão completa das obrigações de alinhamento transfronteiriço, ver /legal/compliance.
My Number: o Identificador Nacional do Japão
My Number (マイナンバー) é um ID nacional de 12 dígitos. O Japão emite-o a todos os residentes — incluindo estrangeiros. O sistema funciona desde 2016. Cobre impostos, segurança social e resposta a desastres.
Como funciona o dígito de controlo: My Number usa o método Verhoeff. É um esquema de verificação de erros baseado em matemática. É mais difícil de implementar do que Luhn — o método usado para o personnummer sueco e o SIN canadiano. A maioria dos IDs europeus usa matemática modular mais simples.
Por que a deteção é difícil: Uma pesquisa por cadeias de 12 dígitos falha em documentos japoneses. Datas, códigos postais e números de fatura têm o mesmo aspeto. É precisa lógica Verhoeff completa para os distinguir. Uma regex simples não chega.
A revisão técnica da PPC de 2024 teve uma conclusão clara. 63% das ferramentas NLP genéricas falham na deteção de My Number em documentos japoneses.
Veja como anonym.legal gere My Number em /entities.
Três Sistemas de Escrita ao Mesmo Tempo
O japonês usa Hiragana, Katakana e Kanji ao mesmo tempo. O script romano aparece nalguns contextos também. O mesmo nome pode parecer diferente em diferentes registos. Ferramentas para texto latino falham no japonês sem suporte adicional.
O que isso significa para a deteção de nomes:
- A NER japonesa precisa de modelos treinados em texto japonês. Use spaCy ja_core_news.
- O japonês não tem espaços entre palavras. A segmentação de palavras é um passo próprio. Requer ferramentas adaptadas ao japonês.
- Os nomes de pessoas aparecem em Kanji com guias de leitura em Hiragana ou Katakana. As ferramentas devem detetar ambas as formas.
- Os nomes de empresas (会社名, 株式会社) precisam de regras específicas do Japão.
Para NER em idiomas APAC, ver /docs/faq.
Outros Formatos de ID Japoneses
Carta de condução: 12 dígitos com um código prefixo para a região de emissão. Os códigos são fixos — Tóquio é 10, Osaka é 62. A parte da região é verificável.
Passaporte: Formato ICAO padrão com regras de emissão específicas do Japão.
Cartão de Seguro de Saúde (健康保険証): Símbolo (記号) mais número. O formato varia por segurador.
Cartão de Residência (在留カード): Para residentes estrangeiros. Formato: duas letras, oito dígitos, duas letras. O Ministério da Justiça emite-os.
Estado das Transferências de Dados Japão–UE
O Japão e a UE têm adequação mútua desde 2019. Os dados pessoais fluem entre a UE e o Japão sem passos adicionais. O Japão é um dos poucos países não europeus com adequação UE total.
O acordo cobre dados pessoais padrão. Dados de saúde sensíveis e registos criminais precisam de salvaguardas adicionais mesmo sob a adequação. As empresas que movem estes dados devem documentar os passos de proteção adicionais que usam.
Reveja as suas obrigações de transferência em /security-compliance.
A Sua Lista de Verificação de Conformidade no Japão
Comece aqui se tratar dados pessoais japoneses:
- Deteção de My Number com lógica de dígito de controlo Verhoeff.
- NER japonesa com modelos treinados em texto de script japonês — não modelos latinos.
- Suporte para formas de nomes em Kanji, Hiragana e Katakana mais variantes de guias de leitura.
- Deteção de carta de condução com verificação de código de região.
- Deteção de cartão de residência com lógica de formato MOJ.
- Deteção de cartão de seguro de saúde em variantes de emissor.
- Uma base legal válida para cada conjunto de treino de IA com dados pessoais.
- Revisão de terceiros para qualquer registo classificado como anonimizado sob APPI.
- Salvaguardas adicionais para dados sensíveis sob o acordo de adequação UE–Japão.
Ver /docs/glossary para definições de termos APPI usados neste guia.