يُعدّ القانون البرازيلي العام لحماية البيانات (LGPD) ثالث أكبر إطار لحماية البيانات في العالم من حيث عدد السكان المشمولين — 215 مليون برازيلي، أكثر من ألمانيا وفرنسا والمملكة المتحدة مجتمعين. أصدرت الهيئة الوطنية لحماية البيانات (ANPD) أول إجراءاتها التطبيقية الرئيسية في 2024، مؤذنةً بانتهاء فترة السماح التي أعقبت صدور LGPD في 2020.
يتسم التحدي التقني للامتثال بطابعه المميز: البرتغالية البرازيلية هي لغة الوثائق المشمولة بـ LGPD، لكن المعرّفات الوطنية البرازيلية مختلفة تماماً عن معرّفات البرتغالية الأوروبية — وعن أي نظام تعريف وطني آخر في العالم.
لماذا تتميز البيانات الشخصية البرازيلية تقنياً
تطوّرت أنظمة التعريف البرازيلية الاتحادية والولائية بشكل مستقل عن أطر الهوية الرقمية الأوروبية. والنتيجة مجموعة معقدة من المعرّفات التي تخفق في اكتشافها الأدوات العامة — معظمها مدرَّب على البيانات الإنجليزية أو الأوروبية:
CPF (Cadastro de Pessoas Físicas): رقم تسجيل دافع الضريبة الفردي المكوّن من 11 رقماً هو المعرّف الشامل للمواطنين في البرازيل. التنسيق: XXX.XXX.XXX-XX مع رقمين للتحقق. تستخدم خوارزمية رقم التحقق للـ CPF حسابين منفصلين للحساب المعياري — إذا تطابق رقما التحقق، فالـ CPF صالح.
المشكلة التقنية: تكتشف أدوات NLP المدربة على الإنجليزية CPF بدقة 45% فقط (التقييم التقني لـ ANPD لعام 2024). الإخفاقات: الأدوات التي تطابق الأنماط للأرقام المكونة من 11 رقماً دون التحقق من رقمَي التحقق بخطوتين لا تميّز أرقام CPF الصالحة من التسلسلات العشوائية؛ وتظهر CPF في الوثائق البرازيلية أحياناً دون التنسيق القياسي XXX.XXX.XXX-XX (مخرجات OCR، نماذج النص العادي).
CNPJ (Cadastro Nacional da Pessoa Jurídica): رقم تسجيل الشركة المكوّن من 14 رقماً. التنسيق: XX.XXX.XXX/XXXX-XX مع رقمين للتحقق باستخدام خوارزميات مشابهة للـ CPF (لكن غير مطابقة).
RG (Registro Geral): وثيقة الهوية المدنية الولائية البرازيلية. على خلاف CPF (اتحادي، موحد)، يتفاوت تنسيق RG حسب الولاية:
- ساو باولو: حرفان + 5-9 أرقام (مثال: MG-12.345.678)
- ريو دي جانيرو: 7-8 أرقام مع شرطة
- ميناس جيرايس: 7-9 أرقام
- ولايات أخرى: تنسيقات متنوعة
الأداة التي تتعرف على تنسيق RG لولاية واحدة فقط تُفوّت غالبية أرقام RG في الوثائق البرازيلية.
CNH (Carteira Nacional de Habilitação): رقم رخصة القيادة المكوّن من 11 رقماً مع رقم تحقق. يُصدَر CNH اتحادياً لكن التنسيق يشمل ترميز المنطقة.
Título de Eleitor (تسجيل الناخب): رقم مكوّن من 12 رقماً بثلاثة مكونات — رمز التعريف (8 أرقام)، رمز الولاية (رقمان)، أرقام التحقق (رقمان).
رقم SUS (Cartão SUS): رقم نظام الصحة الموحد المكوّن من 15 رقماً المخصص لكل برازيلي للوصول إلى الرعاية الصحية العامة. يظهر في سجلات المستشفيات العامة ورعاية أولية.
PIS/PASEP: رقم برنامج تكامل العمل المكوّن من 11 رقماً المستخدم في جميع سجلات التوظيف.
معيار التجهيل وفق LGPD
تُعرّف المادة 12 من LGPD البيانات المجهولة بأنها "البيانات المتعلقة بالشخص المعني التي لا يمكن تعريفها، مع مراعاة الوسائل التقنية المعقولة المتاحة وقت المعالجة." هذا معيار نسبي تقنياً — ما هو مجهول اليوم قد لا يكون كذلك حين تتطور تقنيات إعادة التعريف مستقبلاً.
توضح توجيهات ANPD أن التجهيل يستلزم أكثر من مجرد إزالة المعرّفات الصريحة (CPF، الاسم). قد تُمكّن تجمّعات شبه المعرّفات (الفئة العمرية، البلدية، الجنس، المهنة) من إعادة التعريف ويجب معالجتها عبر التعميم أو إضافة الضوضاء.
لبيانات تدريب الذكاء الاصطناعي، تشترط ANPD أن تكون البيانات المستخدمة في تدريب نماذج LLM أو ML إما:
- مجهولة حقاً (مستوفيةً المعيار التقني للمادة 12)، أو
- حاصلة على موافقة صريحة من كل شخص معني للاستخدام التدريبي المحدد، أو
- مؤهلة بموجب غرض مشروع مع تبرير موثق
متطلبات اللغة البرتغالية البرازيلية
تختلف البرتغالية البرازيلية عن البرتغالية الأوروبية (البرتغال) في المفردات والإملاء وتقاليد الوثائق. تؤدي نماذج NLP المدربة على البرتغالية الأوروبية بدقة تبلغ نحو 71% من دقة النماذج المدربة تحديداً على النصوص البرتغالية البرازيلية (التقييم التقني لـ ANPD).
فروقات محددة ذات صلة باكتشاف البيانات الشخصية:
- تقاليد الأسماء: الأسماء البرازيلية تتبع أنماطاً مختلفة عن الأسماء البرتغالية.
- تنسيقات العناوين: تستخدم العناوين البرازيلية "Rua" و"Avenida" و"Alameda" و"Travessa" بطريقة مشابهة للبرتغال، لكن رموز CEP البريدية (8 أرقام: XXXXX-XXX) خاصة بالبرازيل.
- مصطلحات الوثائق: تستخدم الوثائق البرازيلية مصطلحات مختلفة عن البرتغالية الأوروبية — "Carteira de Identidade" مقابل "Bilhete de Identidade" للهوية الوطنية.
للامتثال لـ LGPD: CPF وCNPJ مع التحقق من رقمَي التحقق بخطوتين، والتعرف على تنسيقات RG متعددة الولايات، واكتشاف رقم SUS وTítulo de Eleitor، ودعم نماذج NLP للبرتغالية البرازيلية تمثّل الخط الأساسي التقني للامتثال لـ ANPD.
المصادر: