By · Last updated 2026-06-05

Kembali ke BlogGDPR & Pematuhan

LGPD Brazil: CPF, CNPJ, dan Perlindungan Data

LGPD meliputi 215 juta orang Brazil dan ANPD mula penguatkuasaan besar pada 2024. CPF dikesan dengan ketepatan hanya 45% oleh alat yang dilatih dalam bahasa Inggeris.

June 5, 20268 min baca
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brazil: CPF, CNPJ, dan Perlindungan Data

Lei Geral de Protecao de Dados (LGPD) Brazil meliputi 215 juta orang. Ia adalah undang-undang perlindungan data ketiga terbesar di dunia mengikut populasi. Ia meliputi lebih ramai orang daripada gabungan Jerman, Perancis, dan UK. Autoridade Nacional de Protecao de Dados (ANPD) mengeluarkan denda utama pertamanya pada 2024. Tempoh tangguh selepas penguatkuasaan LGPD pada 2020 telah tamat.

Terdapat juga cabaran teknikal. Dokumen LGPD adalah dalam bahasa Portugis Brazil. ID kebangsaan di Brazil berbeza daripada yang ada di Portugal. Ia juga berbeza daripada ID mana-mana negara lain.

Mengapa PII Brazil Berbeza

Sistem ID persekutuan dan negeri Brazil berkembang secara berasingan daripada sistem identiti digital Eropah. Ini mencipta set pengecam yang unik. Kebanyakan alat NLP dilatih pada data Inggeris atau Eropah. Mereka gagal mengesan ID tempatan.

CPF (Cadastro de Pessoas Fisicas): Nombor pembayar cukai 11 digit. Format: XXX.XXX.XXX-XX. Ia mempunyai dua digit semak. Formula menggunakan dua langkah matematik yang berasingan. Kedua-duanya mesti sepadan agar CPF sah.

Jurang pengesanan adalah besar. Alat NLP yang dilatih dalam bahasa Inggeris mengesan CPF dengan ketepatan hanya 45% (ANPD, 2024). Dua sebab menjelaskan ini. Pertama, alat yang memadankan nombor 11 digit tanpa logik digit semak dua langkah mengelirukan nombor CPF yang sah dengan jujukan rawak. Kedua, CPF kadangkala tidak mempunyai format XXX.XXX.XXX-XX. Ini berlaku dalam output OCR dan borang teks biasa.

CNPJ (Cadastro Nacional da Pessoa Juridica): Nombor ID syarikat 14 digit. Format: XX.XXX.XXX/XXXX-XX. Ia juga mempunyai dua digit semak. Formula adalah seperti CPF tetapi tidak sama.

RG (Registro Geral): Kad ID awam negeri. Format berbeza mengikut negeri. Sao Paulo menggunakan 2 huruf dan 5-9 digit. Rio de Janeiro menggunakan 7-8 digit dengan sengkang. Minas Gerais menggunakan 7-9 digit. Negeri lain mempunyai format mereka sendiri. Alat yang hanya mengetahui RG satu negeri akan terlepas kebanyakan nombor RG.

CNH (Carteira Nacional de Habilitacao): Nombor lesen memandu 11 digit. Ia mempunyai satu digit semak. Format termasuk kod daerah.

Titulo de Eleitor: Nombor ID pengundi 12 digit. Ia mempunyai tiga bahagian: kod ID 8 digit, kod negeri 2 digit, dan 2 digit semak.

Nombor SUS (Cartao SUS): ID kesihatan awam 15 digit. Setiap orang dalam negara mendapatnya. Ia muncul dalam semua rekod hospital dan klinik.

PIS/PASEP: Nombor program sosial 11 digit. Ia muncul dalam setiap rekod pekerjaan.

Piawaian Anonimisasi LGPD

Artikel 12 LGPD mentakrifkan data tanpa nama. Piawaian: data "tidak dapat dikenal pasti, mempertimbangkan cara teknikal yang munasabah pada masa pemprosesan." Ini adalah piawaian relatif teknologi. Data tanpa nama hari ini mungkin tidak kekal begitu apabila kaedah pengecaman semula bertambah baik.

ANPD menambah lebih banyak panduan. Mengeluarkan pengecam langsung seperti CPF dan nama tidak mencukupi. Kumpulan pengecam quasi masih boleh membenarkan pengecaman semula. Julat umur, bandar, jantina, dan pekerjaan bersama-sama mungkin mengenal pasti seseorang. Ini mesti dikendalikan dengan pengumpulan atau penambahan bunyi.

Untuk data latihan AI, ANPD memerlukan salah satu daripada tiga syarat. Pertama: data memenuhi piawaian Artikel 12. Kedua: setiap subjek data memberikan persetujuan eksplisit untuk penggunaan latihan khusus. Ketiga: terdapat tujuan yang didokumentasikan dan sah.

Keperluan Bahasa Portugis

Bahasa Portugis Brazil berbeza daripada bahasa Portugis Eropah. Perkataan, ejaan, dan borang dokumen tidak sama. Model NLP yang dilatih pada teks Portugal mencapai kira-kira 71% ketepatan model yang dilatih pada teks tempatan. Ini berasal daripada penilaian teknikal ANPD.

Perbezaan utama untuk pengesanan PII:

  • Nama: Penggunaan nama keluarga berganda dan susunan nama berbeza daripada Portugal.
  • Alamat: Kod CEP menggunakan format XXXXX-XXX. Format ini unik kepada negara ini. Ia memerlukan logik pengesanan tersendiri.
  • Istilah dokumen: "Carteira de Identidade" di sini berbanding "Bilhete de Identidade" di Portugal. Nama agensi juga berbeza.

Apa yang Pematuhan ANPD Perlukan

Empat keperluan teknikal meliputi pematuhan ANPD. Pengesanan CPF dan CNPJ mesti termasuk pengesahan digit semak dua langkah. Pengesanan RG mesti meliputi semua negeri. Pengesanan nombor SUS dan Titulo de Eleitor juga diperlukan. Model NLP mesti dilatih pada teks Portugis tempatan.

Lihat panduan kami untuk pengesanan pengecam PII global dan tindakan penguatkuasaan LGPD pada 2024.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.