LGPD บราซิล: CPF, CNPJ และการคุ้มครองข้อมูล
กฎหมาย Lei Geral de Proteção de Dados (LGPD) ของบราซิลครอบคลุม 215 ล้านคน เป็นกฎหมายคุ้มครองข้อมูลที่ใหญ่ที่สุดเป็นอันดับสามของโลกตามประชากร ครอบคลุมคนมากกว่าเยอรมนี ฝรั่งเศส และสหราชอาณาจักรรวมกัน Autoridade Nacional de Proteção de Dados (ANPD) ออกค่าปรับครั้งใหญ่ครั้งแรกในปี 2024 ระยะเปลี่ยนผ่านหลังจากการบังคับใช้ LGPD ในปี 2020 สิ้นสุดแล้ว
ยังมีความท้าทายทางเทคนิคด้วย เอกสาร LGPD เป็นภาษาโปรตุเกสบราซิล หมายเลขประจำชาติในบราซิลต่างจากของโปรตุเกส และต่างจากหมายเลขของประเทศอื่นๆ ด้วย
ทำไม PII บราซิลจึงแตกต่าง
ระบบหมายเลขประจำตัวของรัฐบาลกลางและรัฐบราซิลพัฒนาแยกจากระบบ digital identity ของยุโรป ทำให้เกิดชุดตัวระบุที่ไม่เหมือนใคร เครื่องมือ NLP ส่วนใหญ่ฝึกด้วยข้อมูลภาษาอังกฤษหรือยุโรป จึงล้มเหลวในการตรวจจับหมายเลขท้องถิ่น
CPF (Cadastro de Pessoas Físicas): หมายเลขผู้เสียภาษี 11 หลัก รูปแบบ: XXX.XXX.XXX-XX มีเลขตรวจสอบสองหลัก สูตรใช้ขั้นตอนคณิตศาสตร์แยกสองขั้นตอน ทั้งสองต้องตรงกันเพื่อให้ CPF ถูกต้อง
ช่องว่างการตรวจจับนั้นใหญ่ เครื่องมือ NLP ที่ฝึกด้วยภาษาอังกฤษตรวจจับ CPF ด้วยความแม่นยำเพียง 45% (ANPD, 2024) สองเหตุผลอธิบาย ประการแรก เครื่องมือที่จับคู่ตัวเลข 11 หลักโดยไม่มีตรรกะเลขตรวจสอบสองขั้นตอนสับสน CPF ที่ถูกต้องกับลำดับสุ่ม ประการที่สอง CPF บางครั้งไม่มีรูปแบบ XXX.XXX.XXX-XX ซึ่งเกิดในผลลัพธ์ OCR และแบบฟอร์มข้อความธรรมดา
CNPJ (Cadastro Nacional da Pessoa Jurídica): หมายเลขบริษัท 14 หลัก รูปแบบ: XX.XXX.XXX/XXXX-XX มีเลขตรวจสอบสองหลักด้วย สูตรคล้าย CPF แต่ไม่เหมือนกัน
RG (Registro Geral): บัตรประจำตัวประชาชนของรัฐ รูปแบบแตกต่างกันตามรัฐ เซาเปาลูใช้ตัวอักษร 2 ตัวและ 5–9 หลัก ริโอเดจาเนโรใช้ 7–8 หลักพร้อมเส้นประ มีนัสเชไรส์ใช้ 7–9 หลัก รัฐอื่นๆ มีรูปแบบของตนเอง เครื่องมือที่รู้จักเฉพาะ RG ของรัฐเดียวจะพลาด RG ส่วนใหญ่
CNH (Carteira Nacional de Habilitação): หมายเลขใบขับขี่ 11 หลัก มีเลขตรวจสอบหนึ่งหลัก รูปแบบรวมรหัสเขต
Título de Eleitor: หมายเลขบัตรผู้มีสิทธิเลือกตั้ง 12 หลัก มีสามส่วน: รหัสหมายเลข 8 หลัก, รหัสรัฐ 2 หลัก และเลขตรวจสอบ 2 หลัก
หมายเลข SUS (Cartão SUS): หมายเลขสุขภาพสาธารณะ 15 หลัก ทุกคนในประเทศมีหนึ่งหมายเลข ปรากฏในระเบียนโรงพยาบาลและคลินิกทั้งหมด
PIS/PASEP: หมายเลขโครงการสังคม 11 หลัก ปรากฏในระเบียนการจ้างงานทุกฉบับ
มาตรฐานการทำให้นิรนาม LGPD
LGPD Article 12 กำหนดข้อมูลนิรนาม มาตรฐาน: ข้อมูล "ไม่สามารถระบุตัวตนได้ โดยพิจารณาวิธีทางเทคนิคที่สมเหตุสมผลในขณะที่ประมวลผล" นี่เป็นมาตรฐานที่สัมพันธ์กับเทคโนโลยี ข้อมูลนิรนามในวันนี้อาจไม่คงอยู่เมื่อวิธีการระบุตัวตนซ้ำดีขึ้น
ANPD เพิ่มแนวทางเพิ่มเติม การลบตัวระบุโดยตรงเช่น CPF และชื่อไม่เพียงพอ กลุ่ม quasi-identifier ยังคงอนุญาตให้ระบุตัวตนซ้ำได้ ช่วงอายุ เมือง เพศ และงานรวมกันอาจระบุตัวบุคคลได้ สิ่งเหล่านี้ต้องจัดการด้วยการจัดกลุ่มหรือการเพิ่ม noise
สำหรับข้อมูลการฝึก AI ANPD ต้องการเงื่อนไขหนึ่งในสาม ประการแรก: ข้อมูลตรงตามมาตรฐาน Article 12 ประการที่สอง: แต่ละ data subject ให้ความยินยอมอย่างชัดแจ้งสำหรับการใช้งานการฝึกเฉพาะ ประการที่สาม: มีวัตถุประสงค์ที่มีเอกสารที่ถูกต้อง
ข้อกำหนดภาษาโปรตุเกส
ภาษาโปรตุเกสบราซิลต่างจากภาษาโปรตุเกสยุโรป คำ การสะกด และรูปแบบเอกสารไม่เหมือนกัน โมเดล NLP ที่ฝึกด้วยข้อความโปรตุเกสบรรลุประมาณ 71% ของความแม่นยำของโมเดลที่ฝึกด้วยข้อความท้องถิ่น ซึ่งมาจากการประเมินทางเทคนิค ANPD
ความแตกต่างสำคัญสำหรับการตรวจจับ PII:
- ชื่อ: การใช้นามสกุลคู่และลำดับชื่อต่างจากโปรตุเกส
- ที่อยู่: รหัส CEP ใช้รูปแบบ XXXXX-XXX รูปแบบนี้เฉพาะสำหรับประเทศนี้ ต้องการตรรกะการตรวจจับของตนเอง
- คำในเอกสาร: "Carteira de Identidade" ที่นี่ vs. "Bilhete de Identidade" ในโปรตุเกส ชื่อหน่วยงานก็แตกต่างกันด้วย
สิ่งที่การปฏิบัติตาม ANPD ต้องการ
ความต้องการทางเทคนิคสี่ประการครอบคลุมการปฏิบัติตาม ANPD การตรวจจับ CPF และ CNPJ ต้องรวมการตรวจสอบเลขตรวจสอบสองขั้นตอน การตรวจจับ RG ต้องครอบคลุมทุกรัฐ การตรวจจับหมายเลข SUS และ Título de Eleitor ก็จำเป็นด้วย โมเดล NLP ต้องฝึกด้วยข้อความโปรตุเกสท้องถิ่น
ดูคู่มือเกี่ยวกับ global PII identifier detection และ LGPD enforcement actions in 2024 ของเรา