By · Last updated 2026-05-18

Voltar ao BlogGDPR & Conformidade

LGPD e PII em Português Brasileiro: O que a ANPD...

A LGPD abrange 215 milhões de brasileiros e a ANPD começou uma grande fiscalização em 2024.

May 18, 20268 min de leitura
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

A Lei Geral de Proteção de Dados (LGPD) do Brasil é a terceira maior estrutura de proteção de dados do mundo em termos de população coberta — 215 milhões de brasileiros, maior do que a soma da Alemanha, França e Reino Unido. A Autoridade Nacional de Proteção de Dados (ANPD) emitiu suas primeiras ações de fiscalização em 2024, sinalizando o fim do período de graça que se seguiu à promulgação da LGPD em 2020.

O desafio de conformidade técnica é distinto: o português brasileiro é a língua dos documentos cobertos pela LGPD, mas os identificadores nacionais brasileiros são completamente diferentes dos identificadores do português europeu — e de qualquer outro sistema nacional de identificação no mundo.

Por que o PII Brasileiro é Tecnicamente Distinto

Os sistemas de identificação federal e estadual do Brasil evoluíram separadamente dos frameworks de identidade digital europeus. O resultado é um conjunto complexo de identificadores que ferramentas de PNL genéricas — a maioria treinada em dados em inglês ou em línguas europeias — falham em detectar:

CPF (Cadastro de Pessoas Físicas): O registro do contribuinte individual de 11 dígitos é o identificador universal do cidadão brasileiro. Formato: XXX.XXX.XXX-XX com dois dígitos de verificação. O algoritmo do dígito de verificação do CPF utiliza dois cálculos de aritmética modular separados — se ambos os dígitos de verificação coincidirem, o CPF é válido.

O problema técnico: CPF detectado com apenas 45% de precisão por ferramentas de PNL treinadas em inglês (avaliação técnica da ANPD 2024). As falhas: ferramentas que fazem correspondência de padrões em números de 11 dígitos sem a validação de dígito de verificação em duas etapas não conseguem distinguir números de CPF válidos de sequências aleatórias; e o CPF aparece em documentos brasileiros sem a formatação padrão XXX.XXX.XXX-XX em alguns contextos (saída de OCR, formulários de texto simples).

CNPJ (Cadastro Nacional da Pessoa Jurídica): O número de registro de empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX com dois dígitos de verificação usando algoritmos semelhantes (mas não idênticos) ao do CPF.

RG (Registro Geral): O documento de identidade civil emitido pelo estado no Brasil. Ao contrário do CPF (federal, uniforme), o formato do RG varia de acordo com o estado de emissão:

  • São Paulo: 2 letras + 5-9 dígitos (por exemplo, MG-12.345.678)
  • Rio de Janeiro: 7-8 dígitos com hífen
  • Minas Gerais: 7-9 dígitos
  • Outros estados: formatos variados

Uma ferramenta que reconhece apenas um formato de RG de um estado perde a maioria dos números de RG em documentos brasileiros.

CNH (Carteira Nacional de Habilitação): Número de licença de motorista de 11 dígitos com dígito de verificação. A CNH é emitida federalmente, mas o formato inclui codificação do distrito de registro.

Título de Eleitor (registro de eleitor): Número de 12 dígitos com 3 componentes — código de identificação (8 dígitos), código do estado (2 dígitos), dígitos de verificação (2 dígitos).

Número do SUS (Cartão SUS): Número de 15 dígitos do sistema único de saúde atribuído a cada brasileiro para acesso à saúde pública. Aparece em registros de hospitais públicos e de atenção primária.

PIS/PASEP: Número de 11 dígitos do programa de integração social usado em todos os registros de emprego.

Padrão de Anonimização da LGPD

O Artigo 12 da LGPD define dados anônimos como dados "relacionados ao titular dos dados que não podem ser identificados, considerando o uso de meios técnicos razoáveis disponíveis no momento do processamento." Este é um padrão relativo à tecnologia — o que é anônimo hoje pode não ser anônimo quando técnicas futuras de reidentificação se desenvolverem.

A orientação da ANPD esclarece que a anonimização requer mais do que a remoção de identificadores explícitos (CPF, nome). Combinações de quasi-identificadores (faixa etária, município, gênero, profissão) podem permitir a reidentificação e devem ser tratadas por meio de generalização ou adição de ruído.

Para dados de treinamento de IA, a ANPD exige que os dados usados para treinar LLMs ou modelos de ML:

  • Sejam genuinamente anonimizados (atendendo ao padrão técnico do Artigo 12), OU
  • Tenham consentimento explícito de cada titular dos dados para o uso específico de treinamento, OU
  • Se qualifiquem sob um propósito legítimo com justificativa documentada

Requisitos da Língua Portuguesa Brasileira

O português brasileiro difere do português europeu em vocabulário, ortografia e convenções documentais. Modelos de PNL treinados em português europeu (Portugal) apresentam precisão de aproximadamente 71% em comparação com modelos treinados especificamente em texto em português brasileiro (avaliação técnica da ANPD).

Diferenças específicas relevantes para a detecção de PII:

  • Convenções de nomes: Nomes brasileiros seguem padrões diferentes dos nomes portugueses. Sobrenomes brasileiros comuns (Silva, Santos, Oliveira, Souza) são os mesmos, mas as convenções de nomenclatura (sobrenomes duplos, preferências de ordem) diferem.
  • Formatos de endereço: Endereços brasileiros usam "Rua," "Avenida," "Alameda," "Travessa" de forma semelhante a Portugal, mas os códigos postais CEP (formato de 8 dígitos: XXXXX-XXX) são específicos do Brasil e requerem reconhecimento de código postal brasileiro.
  • Terminologia documental: Tipos de documentos brasileiros usam terminologia diferente do português europeu — "Carteira de Identidade" vs. "Bilhete de Identidade" para ID nacional, diferentes nomes de agências governamentais ao longo do texto.

Para conformidade com a LGPD: CPF e CNPJ com validação de dígito de verificação em duas etapas, reconhecimento de formato de RG multi-estadual, detecção de número do SUS e Título de Eleitor, e suporte a modelos de PNL em português brasileiro são a base técnica para a conformidade com a ANPD.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.