LGPD Brasil: CPF, CNPJ, dan Perlindungan Data
Lei Geral de Proteção de Dados (LGPD) Brasil mencakup 215 juta orang. Ini adalah undang-undang perlindungan data terbesar ketiga di dunia berdasarkan populasi. Ini mencakup lebih banyak orang daripada Jerman, Prancis, dan Inggris digabungkan. Autoridade Nacional de Proteção de Dados (ANPD) mengeluarkan denda besar pertamanya pada 2024. Masa tenggang setelah berlakunya LGPD pada 2020 sudah berakhir.
Ada juga tantangan teknis. Dokumen LGPD berbahasa Portugis Brasil. ID nasional di Brasil berbeda dari yang ada di Portugal. Mereka juga berbeda dari ID negara mana pun.
Mengapa PII Brasil Berbeda
Sistem ID federal dan negara bagian Brasil berkembang terpisah dari sistem identitas digital Eropa. Ini menciptakan serangkaian pengenal yang unik. Sebagian besar alat NLP dilatih pada data bahasa Inggris atau Eropa. Mereka gagal mendeteksi ID lokal.
CPF (Cadastro de Pessoas Físicas): Nomor pembayar pajak 11 digit. Format: XXX.XXX.XXX-XX. Ini memiliki dua digit cek. Rumusnya menggunakan dua langkah matematika terpisah. Keduanya harus cocok agar CPF valid.
Kesenjangan deteksi sangat besar. Alat NLP yang dilatih dalam bahasa Inggris hanya mendeteksi CPF dengan akurasi 45% (ANPD, 2024). Dua alasan menjelaskan ini. Pertama, alat yang mencocokkan 11 digit angka tanpa logika digit cek dua langkah mengacaukan nomor CPF yang valid dengan urutan acak. Kedua, CPF terkadang tidak memiliki format XXX.XXX.XXX-XX. Ini terjadi dalam output OCR dan formulir teks biasa.
CNPJ (Cadastro Nacional da Pessoa Jurídica): Nomor ID perusahaan 14 digit. Format: XX.XXX.XXX/XXXX-XX. Ini juga memiliki dua digit cek. Rumusnya mirip CPF tetapi tidak sama.
RG (Registro Geral): Kartu ID sipil negara bagian. Formatnya bervariasi menurut negara bagian. São Paulo menggunakan 2 huruf dan 5–9 digit. Rio de Janeiro menggunakan 7–8 digit dengan tanda hubung. Minas Gerais menggunakan 7–9 digit. Negara bagian lain memiliki formatnya sendiri. Alat yang hanya mengetahui RG satu negara bagian akan melewatkan sebagian besar nomor RG.
CNH (Carteira Nacional de Habilitação): Nomor SIM 11 digit. Memiliki satu digit cek. Formatnya mencakup kode distrik.
Título de Eleitor: Nomor ID pemilih 12 digit. Memiliki tiga bagian: kode ID 8 digit, kode negara bagian 2 digit, dan 2 digit cek.
Nomor SUS (Cartão SUS): ID kesehatan publik 15 digit. Setiap orang di negara ini mendapatkannya. Muncul di semua catatan rumah sakit dan klinik.
PIS/PASEP: Nomor program sosial 11 digit. Muncul di setiap catatan ketenagakerjaan.
Standar Anonimisasi LGPD
Pasal 12 LGPD mendefinisikan data anonim. Standarnya: data "tidak dapat diidentifikasi, mempertimbangkan sarana teknis yang wajar pada saat pemrosesan." Ini adalah standar relatif terhadap teknologi. Data yang anonim saat ini mungkin tidak tetap demikian seiring berkembangnya metode re-identifikasi.
ANPD menambahkan panduan lebih lanjut. Menghapus pengenal langsung seperti CPF dan nama saja tidak cukup. Kelompok quasi-identifier masih dapat memungkinkan re-identifikasi. Rentang usia, kota, jenis kelamin, dan pekerjaan bersama-sama dapat mengidentifikasi seseorang. Ini harus ditangani dengan pengelompokan atau penambahan noise.
Untuk data pelatihan AI, ANPD mewajibkan salah satu dari tiga kondisi. Pertama: data memenuhi standar Pasal 12. Kedua: setiap subjek data memberikan persetujuan eksplisit untuk penggunaan pelatihan tertentu. Ketiga: ada tujuan yang valid dan terdokumentasi.
Persyaratan Bahasa Portugis
Bahasa Portugis Brasil berbeda dari Bahasa Portugis Eropa. Kata-kata, ejaan, dan bentuk dokumen tidak sama. Model NLP yang dilatih pada teks Portugal mencapai sekitar 71% dari akurasi model yang dilatih pada teks lokal. Ini berasal dari penilaian teknis ANPD.
Perbedaan utama untuk deteksi PII:
- Nama: Penggunaan nama ganda dan urutan nama berbeda dari Portugal.
- Alamat: Kode CEP menggunakan format XXXXX-XXX. Format ini unik untuk negara ini. Memerlukan logika deteksi tersendiri.
- Istilah dokumen: "Carteira de Identidade" di sini vs. "Bilhete de Identidade" di Portugal. Nama lembaga juga berbeda.
Apa yang Diperlukan Kepatuhan ANPD
Empat kebutuhan teknis mencakup kepatuhan ANPD. Deteksi CPF dan CNPJ harus menyertakan validasi digit cek dua langkah. Deteksi RG harus mencakup semua negara bagian. Deteksi nomor SUS dan Título de Eleitor juga diperlukan. Model NLP harus dilatih pada teks Portugis lokal.
Lihat panduan kami tentang deteksi pengenal PII global dan tindakan penegakan LGPD pada 2024.