LGPD البرازيل: CPF وCNPJ وحماية البيانات
يُغطّي القانون البرازيلي العام لحماية البيانات (LGPD — Lei Geral de Proteção de Dados) 215 مليون شخص، مما يجعله ثالث أكبر قانون لحماية البيانات في العالم من حيث عدد السكان، إذ يفوق مجموع سكان ألمانيا وفرنسا والمملكة المتحدة مجتمعةً. أصدرت الهيئة الوطنية البرازيلية لحماية البيانات (ANPD) أولى غراماتها الكبرى في عام 2024 — فترة السماح التي أعقبت دخول LGPD حيز التنفيذ عام 2020 باتت وراءنا.
ثمة تحدٍّ تقني أيضاً. وثائق LGPD بالبرتغالية البرازيلية، والمعرّفات الوطنية في البرازيل مختلفة عن نظيراتها في البرتغال وعن أي دولة أخرى.
لماذا تتميّز البيانات الشخصية البرازيلية؟
تطوّرت أنظمة الهوية الاتحادية والولائية في البرازيل بمعزل عن أنظمة الهوية الرقمية الأوروبية، مما أفرز مجموعة فريدة من المعرّفات. تتلقى معظم أدوات NLP تدريبها على بيانات إنجليزية أو أوروبية، فتعجز عن اكتشاف الهويات المحلية.
CPF (سجل دافعي الضرائب): رقم ضريبي مكوّن من 11 خانة. التنسيق: XXX.XXX.XXX-XX. يحتوي على رقمَي تحقق يحسبان بخطوتين رياضيتين مستقلتين يجب أن تتطابق كلتاهما للتحقق من صحة الرقم.
الفجوة في الاكتشاف كبيرة. تكتشف أدوات NLP المدرَّبة على الإنجليزية CPF بدقة 45% فحسب (ANPD، 2024). سببان يُفسّران ذلك: أولاً، تخلط الأدوات التي تُطابق الأرقام المكوّنة من 11 خانة دون تطبيق خوارزمية التحقق المزدوج بين أرقام CPF الصحيحة والتسلسلات العشوائية. ثانياً، قد يظهر CPF أحياناً دون تنسيق XXX.XXX.XXX-XX، وهذا شائع في مخرجات OCR والنماذج النصية.
CNPJ (سجل الشركات الوطني): رقم تعريف الشركة المكوّن من 14 خانة. التنسيق: XX.XXX.XXX/XXXX-XX. يحتوي هو الآخر على رقمَي تحقق. الصيغة مشابهة لـCPF لكنها مختلفة.
RG (سجل القيد المدني): بطاقة الهوية المدنية على مستوى الولاية. يتفاوت التنسيق بحسب الولاية: ساو باولو تستخدم حرفين و5–9 أرقام؛ ريو دي جانيرو 7–8 أرقام مع شرطة؛ ميناس جيرايس 7–9 أرقام؛ وباقي الولايات لها تنسيقاتها الخاصة. الأداة التي لا تعرف سوى تنسيق ولاية واحدة ستُفوّت معظم أرقام RG.
CNH (رخصة القيادة الوطنية): رقم من 11 خانة مع رقم تحقق واحد، ويتضمن رمز المنطقة.
Título de Eleitor (بطاقة الناخب): رقم ناخب مكوّن من 12 خانة مقسّمة إلى ثلاثة أجزاء: 8 خانات كرمز هوية، وخانتان كرمز الولاية، وخانتان كرقمَي تحقق.
رقم SUS (بطاقة الصحة العامة): رقم صحي مكوّن من 15 خانة يُصدر لكل شخص في البلاد، ويظهر في جميع سجلات المستشفيات والعيادات.
PIS/PASEP: رقم البرنامج الاجتماعي المكوّن من 11 خانة، يرد في كل سجل توظيف.
معيار إخفاء الهوية في LGPD
تُعرّف المادة 12 من LGPD البيانات المجهولة بأنها البيانات التي "لا يمكن التعرف عليها مع مراعاة الوسائل التقنية المعقولة وقت المعالجة". هذا معيار نسبي مرتبط بالتطور التقني؛ فما يُعدّ مجهول الهوية اليوم قد لا يكون كذلك مع تطور أساليب إعادة التعريف مستقبلاً.
تُضيف ANPD إرشادات أكثر دقة. إزالة المعرّفات المباشرة كـCPF والاسم وحدها لا تكفي. فمجموعات شبه المعرّفات قد تتضافر في إعادة التعريف؛ فالفئة العمرية والمدينة والجنس والمهنة مجتمعةً قد تكشف هوية الشخص، وتستلزم معالجة بالتجميع أو إضافة الضوضاء.
لبيانات تدريب الذكاء الاصطناعي، تشترط ANPD توافر أحد ثلاثة شروط: أولاً، استيفاء البيانات لمعيار المادة 12؛ ثانياً، منح كل صاحب بيانات موافقته الصريحة للاستخدام التدريبي المحدد؛ ثالثاً، وجود غرض موثّق وصالح.
اشتراطات اللغة البرتغالية
تختلف البرتغالية البرازيلية عن البرتغالية الأوروبية في المفردات والإملاء وأشكال الوثائق. تصل دقة نماذج NLP المدرَّبة على نصوص البرتغال إلى 71% تقريباً من دقة النماذج المدرَّبة على النصوص المحلية، استناداً إلى التقييم التقني لـANPD.
الفوارق الرئيسية لاكتشاف البيانات الشخصية:
- الأسماء: استخدام اللقب المزدوج وترتيب الأسماء يختلفان عن البرتغال.
- العناوين: تستخدم الرموز البريدية (CEP) التنسيق XXXXX-XXX، وهو تنسيق فريد يستلزم منطق كشف خاصاً.
- مصطلحات الوثائق: "Carteira de Identidade" هنا مقابل "Bilhete de Identidade" في البرتغال. كذلك تختلف أسماء الوكالات.
ما يستلزمه الامتثال مع ANPD
أربع احتياجات تقنية تُغطّي متطلبات ANPD. يجب أن يشمل اكتشاف CPF وCNPJ التحقق بالخطوة المزدوجة. يجب أن يُغطّي اكتشاف RG جميع الولايات. كذلك يُطلب اكتشاف رقم SUS وTítulo de Eleitor. ويجب أن تكون نماذج NLP مدرَّبة على البرتغالية المحلية.
راجع دليلنا حول اكتشاف المعرّفات العالمية للبيانات الشخصية وإجراءات تطبيق LGPD في 2024.