LGPD Brazil: CPF, CNPJ, dan Perlindungan Data
Lei Geral de Protecao de Dados (LGPD) Brazil meliputi 215 juta orang. Ia adalah undang-undang perlindungan data ketiga terbesar di dunia mengikut populasi. Ia meliputi lebih ramai orang daripada gabungan Jerman, Perancis, dan UK. Autoridade Nacional de Protecao de Dados (ANPD) mengeluarkan denda utama pertamanya pada 2024. Tempoh tangguh selepas penguatkuasaan LGPD pada 2020 telah tamat.
Terdapat juga cabaran teknikal. Dokumen LGPD adalah dalam bahasa Portugis Brazil. ID kebangsaan di Brazil berbeza daripada yang ada di Portugal. Ia juga berbeza daripada ID mana-mana negara lain.
Mengapa PII Brazil Berbeza
Sistem ID persekutuan dan negeri Brazil berkembang secara berasingan daripada sistem identiti digital Eropah. Ini mencipta set pengecam yang unik. Kebanyakan alat NLP dilatih pada data Inggeris atau Eropah. Mereka gagal mengesan ID tempatan.
CPF (Cadastro de Pessoas Fisicas): Nombor pembayar cukai 11 digit. Format: XXX.XXX.XXX-XX. Ia mempunyai dua digit semak. Formula menggunakan dua langkah matematik yang berasingan. Kedua-duanya mesti sepadan agar CPF sah.
Jurang pengesanan adalah besar. Alat NLP yang dilatih dalam bahasa Inggeris mengesan CPF dengan ketepatan hanya 45% (ANPD, 2024). Dua sebab menjelaskan ini. Pertama, alat yang memadankan nombor 11 digit tanpa logik digit semak dua langkah mengelirukan nombor CPF yang sah dengan jujukan rawak. Kedua, CPF kadangkala tidak mempunyai format XXX.XXX.XXX-XX. Ini berlaku dalam output OCR dan borang teks biasa.
CNPJ (Cadastro Nacional da Pessoa Juridica): Nombor ID syarikat 14 digit. Format: XX.XXX.XXX/XXXX-XX. Ia juga mempunyai dua digit semak. Formula adalah seperti CPF tetapi tidak sama.
RG (Registro Geral): Kad ID awam negeri. Format berbeza mengikut negeri. Sao Paulo menggunakan 2 huruf dan 5-9 digit. Rio de Janeiro menggunakan 7-8 digit dengan sengkang. Minas Gerais menggunakan 7-9 digit. Negeri lain mempunyai format mereka sendiri. Alat yang hanya mengetahui RG satu negeri akan terlepas kebanyakan nombor RG.
CNH (Carteira Nacional de Habilitacao): Nombor lesen memandu 11 digit. Ia mempunyai satu digit semak. Format termasuk kod daerah.
Titulo de Eleitor: Nombor ID pengundi 12 digit. Ia mempunyai tiga bahagian: kod ID 8 digit, kod negeri 2 digit, dan 2 digit semak.
Nombor SUS (Cartao SUS): ID kesihatan awam 15 digit. Setiap orang dalam negara mendapatnya. Ia muncul dalam semua rekod hospital dan klinik.
PIS/PASEP: Nombor program sosial 11 digit. Ia muncul dalam setiap rekod pekerjaan.
Piawaian Anonimisasi LGPD
Artikel 12 LGPD mentakrifkan data tanpa nama. Piawaian: data "tidak dapat dikenal pasti, mempertimbangkan cara teknikal yang munasabah pada masa pemprosesan." Ini adalah piawaian relatif teknologi. Data tanpa nama hari ini mungkin tidak kekal begitu apabila kaedah pengecaman semula bertambah baik.
ANPD menambah lebih banyak panduan. Mengeluarkan pengecam langsung seperti CPF dan nama tidak mencukupi. Kumpulan pengecam quasi masih boleh membenarkan pengecaman semula. Julat umur, bandar, jantina, dan pekerjaan bersama-sama mungkin mengenal pasti seseorang. Ini mesti dikendalikan dengan pengumpulan atau penambahan bunyi.
Untuk data latihan AI, ANPD memerlukan salah satu daripada tiga syarat. Pertama: data memenuhi piawaian Artikel 12. Kedua: setiap subjek data memberikan persetujuan eksplisit untuk penggunaan latihan khusus. Ketiga: terdapat tujuan yang didokumentasikan dan sah.
Keperluan Bahasa Portugis
Bahasa Portugis Brazil berbeza daripada bahasa Portugis Eropah. Perkataan, ejaan, dan borang dokumen tidak sama. Model NLP yang dilatih pada teks Portugal mencapai kira-kira 71% ketepatan model yang dilatih pada teks tempatan. Ini berasal daripada penilaian teknikal ANPD.
Perbezaan utama untuk pengesanan PII:
- Nama: Penggunaan nama keluarga berganda dan susunan nama berbeza daripada Portugal.
- Alamat: Kod CEP menggunakan format XXXXX-XXX. Format ini unik kepada negara ini. Ia memerlukan logik pengesanan tersendiri.
- Istilah dokumen: "Carteira de Identidade" di sini berbanding "Bilhete de Identidade" di Portugal. Nama agensi juga berbeza.
Apa yang Pematuhan ANPD Perlukan
Empat keperluan teknikal meliputi pematuhan ANPD. Pengesanan CPF dan CNPJ mesti termasuk pengesahan digit semak dua langkah. Pengesanan RG mesti meliputi semua negeri. Pengesanan nombor SUS dan Titulo de Eleitor juga diperlukan. Model NLP mesti dilatih pada teks Portugis tempatan.
Lihat panduan kami untuk pengesanan pengecam PII global dan tindakan penguatkuasaan LGPD pada 2024.