Voltar ao BlogGDPR & Conformidade

LGPD e PII em Português Brasileiro: O que a ANPD Exige para CPF, CNPJ e Proteção de Dados no Brasil

A LGPD abrange 215 milhões de brasileiros e a ANPD começou uma grande fiscalização em 2024. CPF detectado com apenas 45% de precisão por ferramentas treinadas em inglês. Identificadores brasileiros, do CPF ao Título de Eleitor, exigem detecção especializada.

March 7, 20268 min de leitura
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

A Lei Geral de Proteção de Dados (LGPD) do Brasil é a terceira maior estrutura de proteção de dados do mundo em termos de população coberta — 215 milhões de brasileiros, maior do que a soma da Alemanha, França e Reino Unido. A Autoridade Nacional de Proteção de Dados (ANPD) emitiu suas primeiras ações de fiscalização em 2024, sinalizando o fim do período de graça que se seguiu à promulgação da LGPD em 2020.

O desafio de conformidade técnica é distinto: o português brasileiro é a língua dos documentos cobertos pela LGPD, mas os identificadores nacionais brasileiros são completamente diferentes dos identificadores do português europeu — e de qualquer outro sistema nacional de identificação no mundo.

Por que o PII Brasileiro é Tecnicamente Distinto

Os sistemas de identificação federal e estadual do Brasil evoluíram separadamente dos frameworks de identidade digital europeus. O resultado é um conjunto complexo de identificadores que ferramentas de PNL genéricas — a maioria treinada em dados em inglês ou em línguas europeias — falham em detectar:

CPF (Cadastro de Pessoas Físicas): O registro do contribuinte individual de 11 dígitos é o identificador universal do cidadão brasileiro. Formato: XXX.XXX.XXX-XX com dois dígitos de verificação. O algoritmo do dígito de verificação do CPF utiliza dois cálculos de aritmética modular separados — se ambos os dígitos de verificação coincidirem, o CPF é válido.

O problema técnico: CPF detectado com apenas 45% de precisão por ferramentas de PNL treinadas em inglês (avaliação técnica da ANPD 2024). As falhas: ferramentas que fazem correspondência de padrões em números de 11 dígitos sem a validação de dígito de verificação em duas etapas não conseguem distinguir números de CPF válidos de sequências aleatórias; e o CPF aparece em documentos brasileiros sem a formatação padrão XXX.XXX.XXX-XX em alguns contextos (saída de OCR, formulários de texto simples).

CNPJ (Cadastro Nacional da Pessoa Jurídica): O número de registro de empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX com dois dígitos de verificação usando algoritmos semelhantes (mas não idênticos) ao do CPF.

RG (Registro Geral): O documento de identidade civil emitido pelo estado no Brasil. Ao contrário do CPF (federal, uniforme), o formato do RG varia de acordo com o estado de emissão:

  • São Paulo: 2 letras + 5-9 dígitos (por exemplo, MG-12.345.678)
  • Rio de Janeiro: 7-8 dígitos com hífen
  • Minas Gerais: 7-9 dígitos
  • Outros estados: formatos variados

Uma ferramenta que reconhece apenas um formato de RG de um estado perde a maioria dos números de RG em documentos brasileiros.

CNH (Carteira Nacional de Habilitação): Número de licença de motorista de 11 dígitos com dígito de verificação. A CNH é emitida federalmente, mas o formato inclui codificação do distrito de registro.

Título de Eleitor (registro de eleitor): Número de 12 dígitos com 3 componentes — código de identificação (8 dígitos), código do estado (2 dígitos), dígitos de verificação (2 dígitos).

Número do SUS (Cartão SUS): Número de 15 dígitos do sistema único de saúde atribuído a cada brasileiro para acesso à saúde pública. Aparece em registros de hospitais públicos e de atenção primária.

PIS/PASEP: Número de 11 dígitos do programa de integração social usado em todos os registros de emprego.

Padrão de Anonimização da LGPD

O Artigo 12 da LGPD define dados anônimos como dados "relacionados ao titular dos dados que não podem ser identificados, considerando o uso de meios técnicos razoáveis disponíveis no momento do processamento." Este é um padrão relativo à tecnologia — o que é anônimo hoje pode não ser anônimo quando técnicas futuras de reidentificação se desenvolverem.

A orientação da ANPD esclarece que a anonimização requer mais do que a remoção de identificadores explícitos (CPF, nome). Combinações de quasi-identificadores (faixa etária, município, gênero, profissão) podem permitir a reidentificação e devem ser tratadas por meio de generalização ou adição de ruído.

Para dados de treinamento de IA, a ANPD exige que os dados usados para treinar LLMs ou modelos de ML:

  • Sejam genuinamente anonimizados (atendendo ao padrão técnico do Artigo 12), OU
  • Tenham consentimento explícito de cada titular dos dados para o uso específico de treinamento, OU
  • Se qualifiquem sob um propósito legítimo com justificativa documentada

Requisitos da Língua Portuguesa Brasileira

O português brasileiro difere do português europeu em vocabulário, ortografia e convenções documentais. Modelos de PNL treinados em português europeu (Portugal) apresentam precisão de aproximadamente 71% em comparação com modelos treinados especificamente em texto em português brasileiro (avaliação técnica da ANPD).

Diferenças específicas relevantes para a detecção de PII:

  • Convenções de nomes: Nomes brasileiros seguem padrões diferentes dos nomes portugueses. Sobrenomes brasileiros comuns (Silva, Santos, Oliveira, Souza) são os mesmos, mas as convenções de nomenclatura (sobrenomes duplos, preferências de ordem) diferem.
  • Formatos de endereço: Endereços brasileiros usam "Rua," "Avenida," "Alameda," "Travessa" de forma semelhante a Portugal, mas os códigos postais CEP (formato de 8 dígitos: XXXXX-XXX) são específicos do Brasil e requerem reconhecimento de código postal brasileiro.
  • Terminologia documental: Tipos de documentos brasileiros usam terminologia diferente do português europeu — "Carteira de Identidade" vs. "Bilhete de Identidade" para ID nacional, diferentes nomes de agências governamentais ao longo do texto.

Para conformidade com a LGPD: CPF e CNPJ com validação de dígito de verificação em duas etapas, reconhecimento de formato de RG multi-estadual, detecção de número do SUS e Título de Eleitor, e suporte a modelos de PNL em português brasileiro são a base técnica para a conformidade com a ANPD.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.