By · Last updated 2026-06-05

Retour au blogGDPR & Conformité

LGPD et PII en portugais brésilien : Ce que l'ANPD...

La LGPD couvre 215 millions de Brésiliens et l'ANPD a commencé une application majeure en 2024.

June 5, 20268 min de lecture
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brésil : CPF, CNPJ et protection des données

La Lei Geral de Proteção de Dados (LGPD) du Brésil couvre 215 millions de personnes. C'est la troisième loi de protection des données au monde par population. Elle couvre plus de personnes que l'Allemagne, la France et le Royaume-Uni réunis. L'Autoridade Nacional de Proteção de Dados (ANPD) a émis ses premières amendes importantes en 2024. La période de grâce après l'entrée en vigueur de la LGPD en 2020 est terminée.

Il y a aussi un défi technique. Les documents LGPD sont en portugais brésilien. Les identifiants nationaux au Brésil diffèrent de ceux du Portugal. Ils diffèrent aussi des identifiants de tout autre pays.

Pourquoi les données personnelles brésiliennes sont différentes

Les systèmes d'identité fédéraux et étatiques du Brésil ont évolué séparément des systèmes d'identité numérique européens. Cela a créé un ensemble unique d'identifiants. La plupart des outils NLP sont entraînés sur des données anglaises ou européennes. Ils ne détectent pas les identifiants locaux.

CPF (Cadastro de Pessoas Físicas) : Le numéro de contribuable à 11 chiffres. Format : XXX.XXX.XXX-XX. Il a deux chiffres de contrôle. La formule utilise deux étapes de calcul séparées. Les deux doivent correspondre pour que le CPF soit valide.

L'écart de détection est important. Les outils NLP entraînés en anglais ne détectent le CPF qu'avec 45 % de précision (ANPD, 2024). Deux raisons expliquent cela. Premièrement, les outils qui recherchent des numéros à 11 chiffres sans la logique des deux chiffres de contrôle confondent les numéros CPF valides avec des séquences aléatoires. Deuxièmement, le CPF n'a parfois pas le format XXX.XXX.XXX-XX. Cela arrive dans les sorties OCR et les formulaires en texte brut.

CNPJ (Cadastro Nacional da Pessoa Jurídica) : Le numéro d'identité d'entreprise à 14 chiffres. Format : XX.XXX.XXX/XXXX-XX. Il a aussi deux chiffres de contrôle. La formule ressemble au CPF mais n'est pas identique.

RG (Registro Geral) : La carte d'identité civile étatique. Le format varie selon l'État. São Paulo utilise 2 lettres et 5–9 chiffres. Rio de Janeiro utilise 7–8 chiffres avec un tiret. Minas Gerais utilise 7–9 chiffres. Les autres États ont leurs propres formats. Un outil qui ne connaît que le format RG d'un seul État manquera la plupart des numéros RG.

CNH (Carteira Nacional de Habilitação) : Le numéro de permis de conduire à 11 chiffres. Il a un chiffre de contrôle. Le format inclut un code de district.

Título de Eleitor : Le numéro d'identité d'électeur à 12 chiffres. Il a trois parties : un code d'identité de 8 chiffres, un code d'État de 2 chiffres et 2 chiffres de contrôle.

Numéro SUS (Cartão SUS) : L'identifiant de santé publique à 15 chiffres. Chaque personne dans le pays en reçoit un. Il apparaît dans tous les dossiers hospitaliers et de clinique.

PIS/PASEP : Le numéro de programme social à 11 chiffres. Il apparaît dans chaque dossier d'emploi.

Norme d'anonymisation LGPD

L'article 12 de la LGPD définit les données anonymes. La norme : les données « ne peuvent pas être identifiées, compte tenu des moyens techniques raisonnables au moment du traitement. » Il s'agit d'une norme relative à la technologie. Les données anonymisées aujourd'hui pourraient ne pas le rester si les méthodes de ré-identification s'améliorent.

L'ANPD ajoute des précisions. Supprimer les identifiants directs comme le CPF et le nom ne suffit pas. Des groupes de quasi-identifiants peuvent encore permettre la ré-identification. La tranche d'âge, la ville, le sexe et la profession ensemble peuvent identifier une personne. Ces éléments doivent être traités par regroupement ou ajout de bruit.

Pour les données d'entraînement IA, l'ANPD exige l'une de trois conditions. Premièrement : les données répondent à la norme de l'article 12. Deuxièmement : chaque personne concernée a donné son consentement explicite pour l'utilisation spécifique en formation. Troisièmement : il y a un but documenté valide.

Exigences en matière de langue

Le portugais brésilien diffère du portugais européen. Les mots, l'orthographe et les formes de documents ne sont pas les mêmes. Les modèles NLP entraînés sur du texte portugais du Portugal atteignent environ 71 % de la précision des modèles entraînés sur du texte local. C'est ce que montre l'évaluation technique de l'ANPD.

Différences clés pour la détection des données personnelles :

  • Noms : L'usage du double nom et l'ordre des noms diffèrent du Portugal.
  • Adresses : Les codes CEP utilisent le format XXXXX-XXX. Ce format est unique au pays. Il nécessite sa propre logique de détection.
  • Termes de documents : « Carteira de Identidade » ici vs. « Bilhete de Identidade » au Portugal. Les noms d'agences diffèrent aussi.

Ce dont la conformité ANPD a besoin

Quatre exigences techniques couvrent la conformité ANPD. La détection CPF et CNPJ doit inclure une validation en deux étapes des chiffres de contrôle. La détection RG doit couvrir tous les États. La détection du numéro SUS et du Título de Eleitor est aussi requise. Les modèles NLP doivent être entraînés sur du texte portugais local.

Voir notre guide sur la détection globale des identifiants de données personnelles et les actions d'application LGPD en 2024.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.