By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

LGPD Brazil: CPF, CNPJ, at Proteksyon ng Data

Sinasaklaw ng LGPD ang 215M na Braziliano at nagsimulang mag-enforce nang malaki ang ANPD noong 2024. 45% na katumpakan lamang ang pag-detect ng CPF ng mga tool na sinanay sa English.

June 5, 20268 min basahin
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brazil: CPF, CNPJ, at Proteksyon ng Data

Sinasaklaw ng Lei Geral de Protecao de Dados (LGPD) ng Brazil ang 215 milyong tao. Ito ang ikatlong pinakamalaking batas sa proteksyon ng data sa mundo ayon sa populasyon. Sumasaklaw ito ng higit pang tao kaysa sa Germany, France, at UK na pinagsama. Naglabas ang Autoridade Nacional de Protecao de Dados (ANPD) ng mga unang pangunahing multa noong 2024. Tapos na ang grace period pagkatapos ng pagpapatupad ng LGPD noong 2020.

Mayroon ding teknikal na hamon. Ang mga dokumento ng LGPD ay nasa Brazilian Portuguese. Naiiba ang mga national ID sa Brazil mula sa mga ID sa Portugal. Naiiba rin ang mga ito mula sa mga ID ng ibang bansa.

Bakit Naiiba ang Brazilian PII

Naghiwalay ang mga pederal at estado na sistema ng ID ng Brazil mula sa mga European na sistema ng digital identity. Lumikha ito ng natatanging hanay ng mga identifier. Karamihan sa mga NLP tool ay sinanay sa English o European na data. Nabibigo ang mga ito sa pag-detect ng mga lokal na ID.

CPF (Cadastro de Pessoas Fisicas): Ang 11-digit na numero ng nagbabayad ng buwis. Format: XXX.XXX.XXX-XX. Mayroon itong dalawang check digit. Gumagamit ang formula ng dalawang hiwalay na hakbang sa matematika. Parehong dapat tumugma para maging wasto ang CPF.

Malaki ang agwat sa pag-detect. Nakaka-detect lang ng CPF ang mga NLP tool na sinanay sa English sa 45% na katumpakan (ANPD, 2024). Dalawang dahilan ang nagpapaliwanag nito. Una, ang mga tool na nagtutugma sa mga 11-digit na numero nang walang dalawang hakbang na lohika ng check digit ay nagpapalito ng mga wastong numero ng CPF sa mga random na sequence. Pangalawa, kung minsan ay kulang ang CPF sa format na XXX.XXX.XXX-XX. Nangyayari ito sa OCR output at plain-text na mga form.

CNPJ (Cadastro Nacional da Pessoa Juridica): Ang 14-digit na numero ng ID ng kumpanya. Format: XX.XXX.XXX/XXXX-XX. Mayroon din itong dalawang check digit. Katulad ang formula ng CPF ngunit hindi pareho.

RG (Registro Geral): Ang estado civil ID card. Nag-iiba ang format ayon sa estado. Gumagamit ang Sao Paulo ng 2 titik at 5-9 digit. Gumagamit ang Rio de Janeiro ng 7-8 digit na may gitling. Gumagamit ang Minas Gerais ng 7-9 digit. Ang ibang estado ay may sariling format. Ang isang tool na nakakaalam ng format ng RG ng isang estado lamang ay mapalampas ang karamihan ng mga numero ng RG.

CNH (Carteira Nacional de Habilitacao): Ang 11-digit na numero ng driver's license. Mayroon itong isang check digit. Kasama sa format ang isang district code.

Titulo de Eleitor: Ang 12-digit na voter ID number. Mayroon itong tatlong bahagi: isang 8-digit na ID code, isang 2-digit na state code, at 2 check digit.

SUS number (Cartao SUS): Ang 15-digit na public health ID. Bawat tao sa bansa ay nakakakuha nito. Lumalabas ito sa lahat ng rekord ng ospital at klinika.

PIS/PASEP: Ang 11-digit na numero ng social program. Lumalabas ito sa bawat rekord ng trabaho.

Pamantayan ng LGPD Anonymization

Inilalarawan ng LGPD Article 12 ang anonymous na data. Ang pamantayan: data na "hindi matutukoy, isinasaalang-alang ang makatwirang teknikal na paraan sa oras ng pagpoproseso." Ito ay isang pamantayan na relatibo sa teknolohiya. Ang data na anonymous ngayon ay maaaring hindi manatiling ganoon habang nagpapabuti ang mga paraan ng re-ID.

Nagdaragdag ang ANPD ng higit pang gabay. Hindi sapat ang pag-alis ng mga direktang identifier tulad ng CPF at pangalan. Ang mga grupo ng quasi-identifier ay maaari pa ring magpahintulot ng re-ID. Ang hanay ng edad, lungsod, kasarian, at trabaho ay maaaring magtukoy ng isang tao. Ang mga ito ay dapat harapin sa pamamagitan ng pagpapangkat o pagdaragdag ng ingay.

Para sa data ng AI training, nangangailangan ang ANPD ng isa sa tatlong kondisyon. Una: natutugunan ng data ang pamantayan ng Article 12. Pangalawa: bawat data subject ay nagbigay ng explicit na pahintulot para sa tiyak na paggamit sa training. Pangatlo: mayroong wastong dokumentadong layunin.

Mga Kinakailangan sa Wikang Portuges

Naiiba ang Brazilian Portuguese sa European Portuguese. Hindi pareho ang mga salita, pagbabaybay, at mga anyo ng dokumento. Ang mga NLP model na sinanay sa teksto ng Portugal ay umaabot ng humigit-kumulang 71% ng katumpakan ng mga modelo na sinanay sa lokal na teksto. Nagmumula ito sa teknikal na pagtatasa ng ANPD.

Mga pangunahing pagkakaiba para sa pag-detect ng PII:

  • Mga pangalan: Naiiba ang paggamit ng double-surname at pagkakasunud-sunod ng pangalan mula sa Portugal.
  • Mga address: Gumagamit ang mga CEP code ng format na XXXXX-XXX. Natatangi ang format na ito sa bansa. Nangangailangan ito ng sariling lohika ng pag-detect.
  • Mga termino ng dokumento: "Carteira de Identidade" dito kumpara sa "Bilhete de Identidade" sa Portugal. Naiiba rin ang mga pangalan ng ahensya.

Ano ang Kailangan ng ANPD Compliance

Aapat na teknikal na pangangailangan ang sumasaklaw sa pagsunod sa ANPD. Ang pag-detect ng CPF at CNPJ ay dapat magsama ng two-step na check digit validation. Dapat saklawin ng pag-detect ng RG ang lahat ng estado. Kinakailangan din ang pag-detect ng SUS number at Titulo de Eleitor. Ang mga NLP model ay dapat sinanay sa lokal na teksto ng Portuges.

Tingnan ang aming gabay sa global na pag-detect ng PII identifier at mga aksyon sa pagpapatupad ng LGPD noong 2024.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.