By · Last updated 2026-06-05

Zurück zum BlogDSGVO & Compliance

LGPD und brasilianisches Portugiesisch PII...

Die LGPD betrifft 215 Millionen Brasilianer, und die ANPD begann 2024 mit der Durchsetzung.

June 5, 20268 min Lesezeit
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasilien: CPF, CNPJ und Datenschutz

Brasiliens Lei Geral de Proteção de Dados (LGPD) gilt für 215 Millionen Menschen. Sie ist das drittgrößte Datenschutzgesetz der Welt nach Bevölkerungsgröße. Sie umfasst mehr Menschen als Deutschland, Frankreich und das Vereinigte Königreich zusammen. Die Autoridade Nacional de Proteção de Dados (ANPD) verhängte 2024 ihre ersten größeren Bußgelder. Die Schonfrist nach dem Inkrafttreten der LGPD im Jahr 2020 ist vorbei.

Es gibt auch eine technische Herausforderung. LGPD-Dokumente sind auf brasilianischem Portugiesisch verfasst. Nationale IDs in Brasilien unterscheiden sich von denen in Portugal. Sie unterscheiden sich auch von IDs anderer Länder.

Warum brasilianische PII anders ist

Brasiliens Bundes- und Landes-ID-Systeme entwickelten sich getrennt von europäischen digitalen Identitätssystemen. Das schuf eine einzigartige Gruppe von Kennungen. Die meisten NLP-Tools werden auf englischen oder europäischen Daten trainiert. Sie erkennen lokale IDs nicht.

CPF (Cadastro de Pessoas Físicas): Die 11-stellige Steuernummer. Format: XXX.XXX.XXX-XX. Sie hat zwei Prüfziffern. Die Formel verwendet zwei separate Rechenschritte. Beide müssen übereinstimmen, damit die CPF gültig ist.

Die Erkennungslücke ist groß. Auf Englisch trainierte NLP-Tools erkennen CPF nur mit 45 % Genauigkeit (ANPD, 2024). Zwei Gründe erklären dies. Erstens verwechseln Tools, die 11-stellige Zahlen ohne die zwei Prüfziffernschritte abgleichen, gültige CPF-Nummern mit Zufallsfolgen. Zweitens fehlt CPF manchmal das Format XXX.XXX.XXX-XX. Das kommt in OCR-Ausgaben und Klartextformularen vor.

CNPJ (Cadastro Nacional da Pessoa Jurídica): Die 14-stellige Unternehmens-ID. Format: XX.XXX.XXX/XXXX-XX. Sie hat ebenfalls zwei Prüfziffern. Die Formel ähnelt CPF, ist aber nicht identisch.

RG (Registro Geral): Der staatliche Personalausweis. Das Format variiert je nach Bundesstaat. São Paulo verwendet 2 Buchstaben und 5–9 Ziffern. Rio de Janeiro verwendet 7–8 Ziffern mit einem Bindestrich. Minas Gerais verwendet 7–9 Ziffern. Andere Bundesstaaten haben eigene Formate. Ein Tool, das nur das RG-Format eines Bundesstaates kennt, verpasst die meisten RG-Nummern.

CNH (Carteira Nacional de Habilitação): Die 11-stellige Führerscheinnummer. Sie hat eine Prüfziffer. Das Format enthält einen Bezirkscode.

Título de Eleitor: Die 12-stellige Wähler-ID. Sie hat drei Teile: einen 8-stelligen ID-Code, einen 2-stelligen Staatscode und 2 Prüfziffern.

SUS-Nummer (Cartão SUS): Die 15-stellige öffentliche Gesundheits-ID. Jede Person im Land erhält eine. Sie erscheint in allen Krankenhaus- und Klinikakten.

PIS/PASEP: Die 11-stellige Sozialprogrammnummer. Sie erscheint in jedem Beschäftigungsnachweis.

LGPD-Anonymisierungsstandard

LGPD-Artikel 12 definiert anonyme Daten. Der Standard: Daten „können nicht identifiziert werden, unter Berücksichtigung vertretbarer technischer Mittel zum Zeitpunkt der Verarbeitung." Das ist ein technologierelativer Standard. Heute anonymisierte Daten bleiben möglicherweise nicht anonym, wenn Re-ID-Methoden sich verbessern.

Die ANPD gibt weitere Hinweise. Das Entfernen direkter Kennungen wie CPF und Name reicht nicht aus. Gruppen von Quasi-Kennungen können trotzdem eine Re-ID ermöglichen. Altersgruppe, Stadt, Geschlecht und Beruf zusammen können eine Person identifizieren. Diese müssen durch Gruppierung oder Rauschen behandelt werden.

Für KI-Trainingsdaten verlangt die ANPD eine von drei Bedingungen. Erstens: Daten erfüllen den Artikel-12-Standard. Zweitens: Jede betroffene Person gab ausdrückliche Einwilligung für den spezifischen Trainingsgebrauch. Drittens: Es gibt einen gültigen dokumentierten Zweck.

Anforderungen an die Sprachverarbeitung

Brasilianisches Portugiesisch unterscheidet sich von europäischem Portugiesisch. Wörter, Rechtschreibung und Dokumentenformen sind nicht gleich. NLP-Modelle, die auf portugiesischem Text aus Portugal trainiert wurden, erreichen etwa 71 % der Genauigkeit von Modellen, die auf lokalem Text trainiert wurden. Das zeigt die ANPD-Technikbewertung.

Wesentliche Unterschiede für die PII-Erkennung:

  • Namen: Doppel-Nachnamen und Namenreihenfolge unterscheiden sich von Portugal.
  • Adressen: CEP-Codes verwenden das Format XXXXX-XXX. Dieses Format ist einzigartig für das Land. Es braucht eigene Erkennungslogik.
  • Dokumentenbegriffe: „Carteira de Identidade" hier vs. „Bilhete de Identidade" in Portugal. Behördennamen unterscheiden sich ebenfalls.

Was ANPD-Compliance braucht

Vier technische Anforderungen decken die ANPD-Compliance ab. Die CPF- und CNPJ-Erkennung muss eine zweistufige Prüfziffernvalidierung enthalten. Die RG-Erkennung muss alle Bundesstaaten abdecken. SUS-Nummer und Título de Eleitor-Erkennung sind ebenfalls erforderlich. NLP-Modelle müssen auf lokalem Portugiesischtext trainiert werden.

Siehe unseren Leitfaden zur globalen PII-Kennungserkennung und zu LGPD-Durchsetzungsmaßnahmen 2024.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.