By · Last updated 2026-06-05

Voltar ao BlogGDPR & Conformidade

LGPD e PII em Português Brasileiro: O que a ANPD...

A LGPD abrange 215 milhões de brasileiros e a ANPD começou uma grande fiscalização em 2024.

June 5, 20268 min de leitura
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasil: CPF, CNPJ e Proteção de Dados

A Lei Geral de Proteção de Dados (LGPD) do Brasil cobre 215 milhões de pessoas. É a terceira maior lei de proteção de dados do mundo por população. Cobre mais pessoas do que Alemanha, França e Reino Unido juntos. A Autoridade Nacional de Proteção de Dados (ANPD) emitiu suas primeiras multas importantes em 2024. O período de carência após a entrada em vigor da LGPD em 2020 acabou.

Há também um desafio técnico. Os documentos cobertos pela LGPD são em português brasileiro. Os documentos de identidade no Brasil diferem dos de Portugal. Eles também diferem dos identificadores de qualquer outro país.

Por que os dados pessoais brasileiros são diferentes

Os sistemas de identificação federais e estaduais do Brasil evoluíram separados dos sistemas de identidade digital europeus. Isso criou um conjunto único de identificadores. A maioria das ferramentas de NLP é treinada em dados em inglês ou europeus. Elas não detectam os IDs locais.

CPF (Cadastro de Pessoas Físicas): O número de contribuinte de 11 dígitos. Formato: XXX.XXX.XXX-XX. Tem dois dígitos verificadores. A fórmula usa dois passos de cálculo separados. Ambos devem coincidir para que o CPF seja válido.

A lacuna de detecção é grande. Ferramentas de NLP treinadas em inglês detectam o CPF com apenas 45% de precisão (ANPD, 2024). Dois motivos explicam isso. Primeiro, ferramentas que buscam números de 11 dígitos sem a lógica dos dois passos dos dígitos verificadores confundem CPFs válidos com sequências aleatórias. Segundo, o CPF às vezes aparece sem o formato XXX.XXX.XXX-XX. Isso ocorre em saídas de OCR e formulários em texto simples.

CNPJ (Cadastro Nacional da Pessoa Jurídica): O número de identificação de empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX. Também tem dois dígitos verificadores. A fórmula é parecida com a do CPF, mas não é idêntica.

RG (Registro Geral): O documento de identidade civil emitido pelo estado. O formato varia por estado. São Paulo usa 2 letras e 5–9 dígitos. Rio de Janeiro usa 7–8 dígitos com um traço. Minas Gerais usa 7–9 dígitos. Outros estados têm seus próprios formatos. Uma ferramenta que conhece apenas o formato do RG de um estado perderá a maioria dos números de RG.

CNH (Carteira Nacional de Habilitação): O número de habilitação de 11 dígitos. Tem um dígito verificador. O formato inclui um código de circunscrição.

Título de Eleitor: O número do título de eleitor de 12 dígitos. Tem três partes: um código de identificação de 8 dígitos, um código de estado de 2 dígitos e 2 dígitos verificadores.

Número do SUS (Cartão SUS): O identificador de saúde pública de 15 dígitos. Toda pessoa no país recebe um. Aparece em todos os registros hospitalares e de postos de saúde.

PIS/PASEP: O número do programa social de 11 dígitos. Aparece em todo registro de emprego.

Padrão de Anonimização da LGPD

O Artigo 12 da LGPD define dados anônimos. O padrão: dados "que não podem ser identificados, considerando os meios técnicos razoáveis disponíveis na época do tratamento." É um padrão relativo à tecnologia. Dados anonimizados hoje podem não permanecer anônimos conforme os métodos de re-identificação evoluem.

A ANPD acrescenta mais orientações. Remover identificadores diretos como CPF e nome não é suficiente. Grupos de quase-identificadores ainda podem permitir a re-identificação. Faixa etária, cidade, gênero e profissão juntos podem identificar uma pessoa. Esses devem ser tratados por agrupamento ou adição de ruído.

Para dados de treinamento de IA, a ANPD exige uma de três condições. Primeira: os dados atendem ao padrão do Artigo 12. Segunda: cada titular deu consentimento explícito para o uso específico no treinamento. Terceira: há uma finalidade documentada válida.

Requisitos de Idioma

O português brasileiro difere do português europeu. As palavras, a grafia e as formas dos documentos não são as mesmas. Modelos de NLP treinados em texto de Portugal atingem cerca de 71% da precisão de modelos treinados em texto local. Isso vem da avaliação técnica da ANPD.

Diferenças importantes para a detecção de dados pessoais:

  • Nomes: O uso de sobrenome duplo e a ordem dos nomes diferem de Portugal.
  • Endereços: Os códigos CEP usam o formato XXXXX-XXX. Esse formato é único do país. Requer lógica de detecção própria.
  • Termos de documentos: "Carteira de Identidade" aqui vs. "Bilhete de Identidade" em Portugal. Os nomes de órgãos também diferem.

O que a conformidade com a ANPD exige

Quatro requisitos técnicos cobrem a conformidade com a ANPD. A detecção de CPF e CNPJ deve incluir validação de dígitos verificadores em dois passos. A detecção de RG deve cobrir todos os estados. A detecção do número do SUS e do Título de Eleitor também é necessária. Os modelos de NLP devem ser treinados em texto em português local.

Veja nosso guia sobre detecção global de identificadores de dados pessoais e ações de fiscalização da LGPD em 2024.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.