Voltar ao BlogGDPR & Conformidade

LGPD e PII em Português Brasileiro: O que a ANPD...

A LGPD abrange 215 milhões de brasileiros e a ANPD começou uma grande fiscalização em 2024.

April 21, 20268 min de leitura
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

A Lei Geral de Proteção de Dados (LGPD) do Brasil é a terceira maior estrutura de proteção de dados do mundo em termos de população coberta — 215 milhões de brasileiros, maior do que a soma da Alemanha, França e Reino Unido. A Autoridade Nacional de Proteção de Dados (ANPD) emitiu suas primeiras ações de fiscalização em 2024, sinalizando o fim do período de graça que se seguiu à promulgação da LGPD em 2020.

O desafio de conformidade técnica é distinto: o português brasileiro é a língua dos documentos cobertos pela LGPD, mas os identificadores nacionais brasileiros são completamente diferentes dos identificadores do português europeu — e de qualquer outro sistema nacional de identificação no mundo.

Por que o PII Brasileiro é Tecnicamente Distinto

Os sistemas de identificação federal e estadual do Brasil evoluíram separadamente dos frameworks de identidade digital europeus. O resultado é um conjunto complexo de identificadores que ferramentas de PNL genéricas — a maioria treinada em dados em inglês ou em línguas europeias — falham em detectar:

CPF (Cadastro de Pessoas Físicas): O registro do contribuinte individual de 11 dígitos é o identificador universal do cidadão brasileiro. Formato: XXX.XXX.XXX-XX com dois dígitos de verificação. O algoritmo do dígito de verificação do CPF utiliza dois cálculos de aritmética modular separados — se ambos os dígitos de verificação coincidirem, o CPF é válido.

O problema técnico: CPF detectado com apenas 45% de precisão por ferramentas de PNL treinadas em inglês (avaliação técnica da ANPD 2024). As falhas: ferramentas que fazem correspondência de padrões em números de 11 dígitos sem a validação de dígito de verificação em duas etapas não conseguem distinguir números de CPF válidos de sequências aleatórias; e o CPF aparece em documentos brasileiros sem a formatação padrão XXX.XXX.XXX-XX em alguns contextos (saída de OCR, formulários de texto simples).

CNPJ (Cadastro Nacional da Pessoa Jurídica): O número de registro de empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX com dois dígitos de verificação usando algoritmos semelhantes (mas não idênticos) ao do CPF.

RG (Registro Geral): O documento de identidade civil emitido pelo estado no Brasil. Ao contrário do CPF (federal, uniforme), o formato do RG varia de acordo com o estado de emissão:

  • São Paulo: 2 letras + 5-9 dígitos (por exemplo, MG-12.345.678)
  • Rio de Janeiro: 7-8 dígitos com hífen
  • Minas Gerais: 7-9 dígitos
  • Outros estados: formatos variados

Uma ferramenta que reconhece apenas um formato de RG de um estado perde a maioria dos números de RG em documentos brasileiros.

CNH (Carteira Nacional de Habilitação): Número de licença de motorista de 11 dígitos com dígito de verificação. A CNH é emitida federalmente, mas o formato inclui codificação do distrito de registro.

Título de Eleitor (registro de eleitor): Número de 12 dígitos com 3 componentes — código de identificação (8 dígitos), código do estado (2 dígitos), dígitos de verificação (2 dígitos).

Número do SUS (Cartão SUS): Número de 15 dígitos do sistema único de saúde atribuído a cada brasileiro para acesso à saúde pública. Aparece em registros de hospitais públicos e de atenção primária.

PIS/PASEP: Número de 11 dígitos do programa de integração social usado em todos os registros de emprego.

Padrão de Anonimização da LGPD

O Artigo 12 da LGPD define dados anônimos como dados "relacionados ao titular dos dados que não podem ser identificados, considerando o uso de meios técnicos razoáveis disponíveis no momento do processamento." Este é um padrão relativo à tecnologia — o que é anônimo hoje pode não ser anônimo quando técnicas futuras de reidentificação se desenvolverem.

A orientação da ANPD esclarece que a anonimização requer mais do que a remoção de identificadores explícitos (CPF, nome). Combinações de quasi-identificadores (faixa etária, município, gênero, profissão) podem permitir a reidentificação e devem ser tratadas por meio de generalização ou adição de ruído.

Para dados de treinamento de IA, a ANPD exige que os dados usados para treinar LLMs ou modelos de ML:

  • Sejam genuinamente anonimizados (atendendo ao padrão técnico do Artigo 12), OU
  • Tenham consentimento explícito de cada titular dos dados para o uso específico de treinamento, OU
  • Se qualifiquem sob um propósito legítimo com justificativa documentada

Requisitos da Língua Portuguesa Brasileira

O português brasileiro difere do português europeu em vocabulário, ortografia e convenções documentais. Modelos de PNL treinados em português europeu (Portugal) apresentam precisão de aproximadamente 71% em comparação com modelos treinados especificamente em texto em português brasileiro (avaliação técnica da ANPD).

Diferenças específicas relevantes para a detecção de PII:

  • Convenções de nomes: Nomes brasileiros seguem padrões diferentes dos nomes portugueses. Sobrenomes brasileiros comuns (Silva, Santos, Oliveira, Souza) são os mesmos, mas as convenções de nomenclatura (sobrenomes duplos, preferências de ordem) diferem.
  • Formatos de endereço: Endereços brasileiros usam "Rua," "Avenida," "Alameda," "Travessa" de forma semelhante a Portugal, mas os códigos postais CEP (formato de 8 dígitos: XXXXX-XXX) são específicos do Brasil e requerem reconhecimento de código postal brasileiro.
  • Terminologia documental: Tipos de documentos brasileiros usam terminologia diferente do português europeu — "Carteira de Identidade" vs. "Bilhete de Identidade" para ID nacional, diferentes nomes de agências governamentais ao longo do texto.

Para conformidade com a LGPD: CPF e CNPJ com validação de dígito de verificação em duas etapas, reconhecimento de formato de RG multi-estadual, detecção de número do SUS e Título de Eleitor, e suporte a modelos de PNL em português brasileiro são a base técnica para a conformidade com a ANPD.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.