A Lei Geral de Proteção de Dados (LGPD) do Brasil é a terceira maior estrutura de proteção de dados do mundo em termos de população coberta — 215 milhões de brasileiros, maior do que a soma da Alemanha, França e Reino Unido. A Autoridade Nacional de Proteção de Dados (ANPD) emitiu suas primeiras ações de fiscalização em 2024, sinalizando o fim do período de graça que se seguiu à promulgação da LGPD em 2020.
O desafio de conformidade técnica é distinto: o português brasileiro é a língua dos documentos cobertos pela LGPD, mas os identificadores nacionais brasileiros são completamente diferentes dos identificadores do português europeu — e de qualquer outro sistema nacional de identificação no mundo.
Por que o PII Brasileiro é Tecnicamente Distinto
Os sistemas de identificação federal e estadual do Brasil evoluíram separadamente dos frameworks de identidade digital europeus. O resultado é um conjunto complexo de identificadores que ferramentas de PNL genéricas — a maioria treinada em dados em inglês ou em línguas europeias — falham em detectar:
CPF (Cadastro de Pessoas Físicas): O registro do contribuinte individual de 11 dígitos é o identificador universal do cidadão brasileiro. Formato: XXX.XXX.XXX-XX com dois dígitos de verificação. O algoritmo do dígito de verificação do CPF utiliza dois cálculos de aritmética modular separados — se ambos os dígitos de verificação coincidirem, o CPF é válido.
O problema técnico: CPF detectado com apenas 45% de precisão por ferramentas de PNL treinadas em inglês (avaliação técnica da ANPD 2024). As falhas: ferramentas que fazem correspondência de padrões em números de 11 dígitos sem a validação de dígito de verificação em duas etapas não conseguem distinguir números de CPF válidos de sequências aleatórias; e o CPF aparece em documentos brasileiros sem a formatação padrão XXX.XXX.XXX-XX em alguns contextos (saída de OCR, formulários de texto simples).
CNPJ (Cadastro Nacional da Pessoa Jurídica): O número de registro de empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX com dois dígitos de verificação usando algoritmos semelhantes (mas não idênticos) ao do CPF.
RG (Registro Geral): O documento de identidade civil emitido pelo estado no Brasil. Ao contrário do CPF (federal, uniforme), o formato do RG varia de acordo com o estado de emissão:
- São Paulo: 2 letras + 5-9 dígitos (por exemplo, MG-12.345.678)
- Rio de Janeiro: 7-8 dígitos com hífen
- Minas Gerais: 7-9 dígitos
- Outros estados: formatos variados
Uma ferramenta que reconhece apenas um formato de RG de um estado perde a maioria dos números de RG em documentos brasileiros.
CNH (Carteira Nacional de Habilitação): Número de licença de motorista de 11 dígitos com dígito de verificação. A CNH é emitida federalmente, mas o formato inclui codificação do distrito de registro.
Título de Eleitor (registro de eleitor): Número de 12 dígitos com 3 componentes — código de identificação (8 dígitos), código do estado (2 dígitos), dígitos de verificação (2 dígitos).
Número do SUS (Cartão SUS): Número de 15 dígitos do sistema único de saúde atribuído a cada brasileiro para acesso à saúde pública. Aparece em registros de hospitais públicos e de atenção primária.
PIS/PASEP: Número de 11 dígitos do programa de integração social usado em todos os registros de emprego.
Padrão de Anonimização da LGPD
O Artigo 12 da LGPD define dados anônimos como dados "relacionados ao titular dos dados que não podem ser identificados, considerando o uso de meios técnicos razoáveis disponíveis no momento do processamento." Este é um padrão relativo à tecnologia — o que é anônimo hoje pode não ser anônimo quando técnicas futuras de reidentificação se desenvolverem.
A orientação da ANPD esclarece que a anonimização requer mais do que a remoção de identificadores explícitos (CPF, nome). Combinações de quasi-identificadores (faixa etária, município, gênero, profissão) podem permitir a reidentificação e devem ser tratadas por meio de generalização ou adição de ruído.
Para dados de treinamento de IA, a ANPD exige que os dados usados para treinar LLMs ou modelos de ML:
- Sejam genuinamente anonimizados (atendendo ao padrão técnico do Artigo 12), OU
- Tenham consentimento explícito de cada titular dos dados para o uso específico de treinamento, OU
- Se qualifiquem sob um propósito legítimo com justificativa documentada
Requisitos da Língua Portuguesa Brasileira
O português brasileiro difere do português europeu em vocabulário, ortografia e convenções documentais. Modelos de PNL treinados em português europeu (Portugal) apresentam precisão de aproximadamente 71% em comparação com modelos treinados especificamente em texto em português brasileiro (avaliação técnica da ANPD).
Diferenças específicas relevantes para a detecção de PII:
- Convenções de nomes: Nomes brasileiros seguem padrões diferentes dos nomes portugueses. Sobrenomes brasileiros comuns (Silva, Santos, Oliveira, Souza) são os mesmos, mas as convenções de nomenclatura (sobrenomes duplos, preferências de ordem) diferem.
- Formatos de endereço: Endereços brasileiros usam "Rua," "Avenida," "Alameda," "Travessa" de forma semelhante a Portugal, mas os códigos postais CEP (formato de 8 dígitos: XXXXX-XXX) são específicos do Brasil e requerem reconhecimento de código postal brasileiro.
- Terminologia documental: Tipos de documentos brasileiros usam terminologia diferente do português europeu — "Carteira de Identidade" vs. "Bilhete de Identidade" para ID nacional, diferentes nomes de agências governamentais ao longo do texto.
Para conformidade com a LGPD: CPF e CNPJ com validação de dígito de verificação em duas etapas, reconhecimento de formato de RG multi-estadual, detecção de número do SUS e Título de Eleitor, e suporte a modelos de PNL em português brasileiro são a base técnica para a conformidade com a ANPD.
Fontes: