By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

LGPD Brasil: CPF, CNPJ, dan Perlindungan Data

LGPD mencakup 215 juta warga Brasil dan ANPD mulai penegakan besar pada 2024. CPF hanya terdeteksi dengan akurasi 45% oleh alat yang dilatih dalam bahasa Inggris.

June 5, 20268 menit baca
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasil: CPF, CNPJ, dan Perlindungan Data

Lei Geral de Proteção de Dados (LGPD) Brasil mencakup 215 juta orang. Ini adalah undang-undang perlindungan data terbesar ketiga di dunia berdasarkan populasi. Ini mencakup lebih banyak orang daripada Jerman, Prancis, dan Inggris digabungkan. Autoridade Nacional de Proteção de Dados (ANPD) mengeluarkan denda besar pertamanya pada 2024. Masa tenggang setelah berlakunya LGPD pada 2020 sudah berakhir.

Ada juga tantangan teknis. Dokumen LGPD berbahasa Portugis Brasil. ID nasional di Brasil berbeda dari yang ada di Portugal. Mereka juga berbeda dari ID negara mana pun.

Mengapa PII Brasil Berbeda

Sistem ID federal dan negara bagian Brasil berkembang terpisah dari sistem identitas digital Eropa. Ini menciptakan serangkaian pengenal yang unik. Sebagian besar alat NLP dilatih pada data bahasa Inggris atau Eropa. Mereka gagal mendeteksi ID lokal.

CPF (Cadastro de Pessoas Físicas): Nomor pembayar pajak 11 digit. Format: XXX.XXX.XXX-XX. Ini memiliki dua digit cek. Rumusnya menggunakan dua langkah matematika terpisah. Keduanya harus cocok agar CPF valid.

Kesenjangan deteksi sangat besar. Alat NLP yang dilatih dalam bahasa Inggris hanya mendeteksi CPF dengan akurasi 45% (ANPD, 2024). Dua alasan menjelaskan ini. Pertama, alat yang mencocokkan 11 digit angka tanpa logika digit cek dua langkah mengacaukan nomor CPF yang valid dengan urutan acak. Kedua, CPF terkadang tidak memiliki format XXX.XXX.XXX-XX. Ini terjadi dalam output OCR dan formulir teks biasa.

CNPJ (Cadastro Nacional da Pessoa Jurídica): Nomor ID perusahaan 14 digit. Format: XX.XXX.XXX/XXXX-XX. Ini juga memiliki dua digit cek. Rumusnya mirip CPF tetapi tidak sama.

RG (Registro Geral): Kartu ID sipil negara bagian. Formatnya bervariasi menurut negara bagian. São Paulo menggunakan 2 huruf dan 5–9 digit. Rio de Janeiro menggunakan 7–8 digit dengan tanda hubung. Minas Gerais menggunakan 7–9 digit. Negara bagian lain memiliki formatnya sendiri. Alat yang hanya mengetahui RG satu negara bagian akan melewatkan sebagian besar nomor RG.

CNH (Carteira Nacional de Habilitação): Nomor SIM 11 digit. Memiliki satu digit cek. Formatnya mencakup kode distrik.

Título de Eleitor: Nomor ID pemilih 12 digit. Memiliki tiga bagian: kode ID 8 digit, kode negara bagian 2 digit, dan 2 digit cek.

Nomor SUS (Cartão SUS): ID kesehatan publik 15 digit. Setiap orang di negara ini mendapatkannya. Muncul di semua catatan rumah sakit dan klinik.

PIS/PASEP: Nomor program sosial 11 digit. Muncul di setiap catatan ketenagakerjaan.

Standar Anonimisasi LGPD

Pasal 12 LGPD mendefinisikan data anonim. Standarnya: data "tidak dapat diidentifikasi, mempertimbangkan sarana teknis yang wajar pada saat pemrosesan." Ini adalah standar relatif terhadap teknologi. Data yang anonim saat ini mungkin tidak tetap demikian seiring berkembangnya metode re-identifikasi.

ANPD menambahkan panduan lebih lanjut. Menghapus pengenal langsung seperti CPF dan nama saja tidak cukup. Kelompok quasi-identifier masih dapat memungkinkan re-identifikasi. Rentang usia, kota, jenis kelamin, dan pekerjaan bersama-sama dapat mengidentifikasi seseorang. Ini harus ditangani dengan pengelompokan atau penambahan noise.

Untuk data pelatihan AI, ANPD mewajibkan salah satu dari tiga kondisi. Pertama: data memenuhi standar Pasal 12. Kedua: setiap subjek data memberikan persetujuan eksplisit untuk penggunaan pelatihan tertentu. Ketiga: ada tujuan yang valid dan terdokumentasi.

Persyaratan Bahasa Portugis

Bahasa Portugis Brasil berbeda dari Bahasa Portugis Eropa. Kata-kata, ejaan, dan bentuk dokumen tidak sama. Model NLP yang dilatih pada teks Portugal mencapai sekitar 71% dari akurasi model yang dilatih pada teks lokal. Ini berasal dari penilaian teknis ANPD.

Perbedaan utama untuk deteksi PII:

  • Nama: Penggunaan nama ganda dan urutan nama berbeda dari Portugal.
  • Alamat: Kode CEP menggunakan format XXXXX-XXX. Format ini unik untuk negara ini. Memerlukan logika deteksi tersendiri.
  • Istilah dokumen: "Carteira de Identidade" di sini vs. "Bilhete de Identidade" di Portugal. Nama lembaga juga berbeda.

Apa yang Diperlukan Kepatuhan ANPD

Empat kebutuhan teknis mencakup kepatuhan ANPD. Deteksi CPF dan CNPJ harus menyertakan validasi digit cek dua langkah. Deteksi RG harus mencakup semua negara bagian. Deteksi nomor SUS dan Título de Eleitor juga diperlukan. Model NLP harus dilatih pada teks Portugis lokal.

Lihat panduan kami tentang deteksi pengenal PII global dan tindakan penegakan LGPD pada 2024.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.