By · Last updated 2026-06-05

Zpět na blogGDPR a shoda

LGPD Brazílie: CPF, CNPJ a ochrana osobních údajů

LGPD se vztahuje na 215 milionů Brazilců a ANPD zahájil v roce 2024 vymáhání v plném rozsahu. CPF detekují nástroje trénované na angličtině s přesností pouhých 45 %.

June 5, 20268 min čtení
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brazílie: CPF, CNPJ a ochrana osobních údajů

Brazilský zákon Lei Geral de Proteção de Dados (LGPD) se vztahuje na 215 milionů lidí. Je to třetí největší zákon o ochraně dat na světě podle počtu obyvatel. Pokrývá více lidí než Německo, Francie a Velká Británie dohromady. Národní úřad pro ochranu dat Autoridade Nacional de Proteção de Dados (ANPD) vydal v roce 2024 první významné pokuty. Přechodné období po vstupu LGPD v platnost v roce 2020 je u konce.

Existuje také technická výzva. Dokumenty podle LGPD jsou v brazilské portugalštině. Národní identifikátory v Brazílii se liší od těch v Portugalsku a od identifikátorů jakékoli jiné země.

Proč jsou brazilské PII jiné

Brazilský federální a státní systém identifikátorů se odloučil od evropských systémů digitální identity. To vytvořilo jedinečnou sadu identifikátorů. Většina NLP nástrojů je trénována na anglických nebo evropských datech. Místní identifikátory detekují nedostatečně.

CPF (Cadastro de Pessoas Físicas): 11místné daňové identifikační číslo. Formát: XXX.XXX.XXX-XX. Obsahuje dvě kontrolní číslice. Vzorec používá dva samostatné matematické kroky. Oba musí souhlasit, aby bylo CPF platné.

Mezera v detekci je značná. NLP nástroje trénované na angličtině detekují CPF s přesností pouhých 45 % (ANPD, 2024). Vysvětlují to dva důvody. Za prvé, nástroje párující 11místná čísla bez dvoukrokové logiky kontrolní číslice zaměňují platná čísla CPF s náhodnými sekvencemi. Za druhé, CPF někdy postrádá formát XXX.XXX.XXX-XX. K tomu dochází ve výstupu OCR a prostých textových formulářích.

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14místné identifikační číslo firmy. Formát: XX.XXX.XXX/XXXX-XX. Obsahuje také dvě kontrolní číslice. Vzorec je podobný CPF, ale nikoliv totožný.

RG (Registro Geral): Státní průkaz totožnosti. Formát se liší podle státu. São Paulo používá 2 písmena a 5–9 číslic. Rio de Janeiro používá 7–8 číslic s pomlčkou. Minas Gerais používá 7–9 číslic. Ostatní státy mají vlastní formáty. Nástroj, který zná pouze formát jednoho státu, přehlédne většinu čísel RG.

CNH (Carteira Nacional de Habilitação): 11místné číslo řidičského průkazu. Obsahuje jednu kontrolní číslici. Formát zahrnuje kód okresu.

Título de Eleitor: 12místné číslo voličského průkazu. Skládá se ze tří částí: 8místný identifikační kód, 2místný kód státu a 2 kontrolní číslice.

Číslo SUS (Cartão SUS): 15místný identifikátor veřejného zdravotnictví. Má ho každá osoba v zemi. Vyskytuje se ve všech nemocničních a klinických záznamech.

PIS/PASEP: 11místné číslo sociálního programu. Vyskytuje se v každém pracovním záznamu.

Standard anonymizace podle LGPD

Článek 12 LGPD definuje anonymní data. Standard zní: data „nelze identifikovat s přihlédnutím k přiměřeným technickým prostředkům dostupným v době zpracování.“ Jde o standard relativní k technologiím. Data dnes anonymní nemusí zůstat anonymní v budoucnosti, jak se zlepšují metody opětovné identifikace.

ANPD přidává další pokyny. Odstranění přímých identifikátorů, jako je CPF a jméno, nestačí. Skupiny kvaziidentifikátorů mohou stále umožnit opětovnou identifikaci. Věkové rozmezí, město, pohlaví a zaměstnání dohromady mohou osobu identifikovat. S těmito atributy je nutné naložit seskupením nebo přidáním šumu.

Pro AI tréninková data ANPD vyžaduje splnění jedné ze tří podmínek. Za prvé: data splňují standard článku 12. Za druhé: každý subjekt údajů dal výslovný souhlas pro konkrétní využití při tréninku. Za třetí: existuje platný a zdokumentovaný účel.

Jazykové požadavky pro portugalštinu

Brazilská portugalština se liší od evropské portugalštiny. Slova, pravopis a formuláře dokumentů nejsou totožné. NLP modely trénované na textech z Portugalska dosahují přibližně 71 % přesnosti ve srovnání s modely trénovanými na místních textech. Toto zjištění pochází z technického hodnocení ANPD.

Klíčové rozdíly pro detekci PII:

  • Jména: Používání dvojitých příjmení a pořadí jmen se liší od Portugalska.
  • Adresy: Kódy CEP mají formát XXXXX-XXX. Tento formát je pro zemi jedinečný a vyžaduje vlastní detekční logiku.
  • Pojmy v dokumentech: V Brazílii se používá „Carteira de Identidade“, v Portugalsku „Bilhete de Identidade.“ Liší se i názvy úřadů.

Co vyžaduje soulad s ANPD

Čtyři technické požadavky pokrývají soulad s ANPD. Detekce CPF a CNPJ musí zahrnovat dvoukrokovou validaci kontrolní číslice. Detekce RG musí pokrývat všechny státy. Vyžaduje se také detekce čísla SUS a Título de Eleitor. NLP modely musí být trénovány na místní portugalštině.

Viz náš průvodce globální detekcí identifikátorů PII a vymáháním LGPD v roce 2024.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.