By · Last updated 2026-06-05

العودة إلى المدونةالامتثال لـ GDPR

LGPD البرازيل: CPF وCNPJ وحماية البيانات

يشمل LGPD 215 مليون برازيلي وبدأت ANPD تطبيقاً جاداً في 2024. تكشف الأدوات المدرَّبة على الإنجليزية عن CPF بدقة 45% فحسب.

June 5, 20268 دقيقة قراءة
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD البرازيل: CPF وCNPJ وحماية البيانات

يُغطّي القانون البرازيلي العام لحماية البيانات (LGPD — Lei Geral de Proteção de Dados) 215 مليون شخص، مما يجعله ثالث أكبر قانون لحماية البيانات في العالم من حيث عدد السكان، إذ يفوق مجموع سكان ألمانيا وفرنسا والمملكة المتحدة مجتمعةً. أصدرت الهيئة الوطنية البرازيلية لحماية البيانات (ANPD) أولى غراماتها الكبرى في عام 2024 — فترة السماح التي أعقبت دخول LGPD حيز التنفيذ عام 2020 باتت وراءنا.

ثمة تحدٍّ تقني أيضاً. وثائق LGPD بالبرتغالية البرازيلية، والمعرّفات الوطنية في البرازيل مختلفة عن نظيراتها في البرتغال وعن أي دولة أخرى.

لماذا تتميّز البيانات الشخصية البرازيلية؟

تطوّرت أنظمة الهوية الاتحادية والولائية في البرازيل بمعزل عن أنظمة الهوية الرقمية الأوروبية، مما أفرز مجموعة فريدة من المعرّفات. تتلقى معظم أدوات NLP تدريبها على بيانات إنجليزية أو أوروبية، فتعجز عن اكتشاف الهويات المحلية.

CPF (سجل دافعي الضرائب): رقم ضريبي مكوّن من 11 خانة. التنسيق: XXX.XXX.XXX-XX. يحتوي على رقمَي تحقق يحسبان بخطوتين رياضيتين مستقلتين يجب أن تتطابق كلتاهما للتحقق من صحة الرقم.

الفجوة في الاكتشاف كبيرة. تكتشف أدوات NLP المدرَّبة على الإنجليزية CPF بدقة 45% فحسب (ANPD، 2024). سببان يُفسّران ذلك: أولاً، تخلط الأدوات التي تُطابق الأرقام المكوّنة من 11 خانة دون تطبيق خوارزمية التحقق المزدوج بين أرقام CPF الصحيحة والتسلسلات العشوائية. ثانياً، قد يظهر CPF أحياناً دون تنسيق XXX.XXX.XXX-XX، وهذا شائع في مخرجات OCR والنماذج النصية.

CNPJ (سجل الشركات الوطني): رقم تعريف الشركة المكوّن من 14 خانة. التنسيق: XX.XXX.XXX/XXXX-XX. يحتوي هو الآخر على رقمَي تحقق. الصيغة مشابهة لـCPF لكنها مختلفة.

RG (سجل القيد المدني): بطاقة الهوية المدنية على مستوى الولاية. يتفاوت التنسيق بحسب الولاية: ساو باولو تستخدم حرفين و5–9 أرقام؛ ريو دي جانيرو 7–8 أرقام مع شرطة؛ ميناس جيرايس 7–9 أرقام؛ وباقي الولايات لها تنسيقاتها الخاصة. الأداة التي لا تعرف سوى تنسيق ولاية واحدة ستُفوّت معظم أرقام RG.

CNH (رخصة القيادة الوطنية): رقم من 11 خانة مع رقم تحقق واحد، ويتضمن رمز المنطقة.

Título de Eleitor (بطاقة الناخب): رقم ناخب مكوّن من 12 خانة مقسّمة إلى ثلاثة أجزاء: 8 خانات كرمز هوية، وخانتان كرمز الولاية، وخانتان كرقمَي تحقق.

رقم SUS (بطاقة الصحة العامة): رقم صحي مكوّن من 15 خانة يُصدر لكل شخص في البلاد، ويظهر في جميع سجلات المستشفيات والعيادات.

PIS/PASEP: رقم البرنامج الاجتماعي المكوّن من 11 خانة، يرد في كل سجل توظيف.

معيار إخفاء الهوية في LGPD

تُعرّف المادة 12 من LGPD البيانات المجهولة بأنها البيانات التي "لا يمكن التعرف عليها مع مراعاة الوسائل التقنية المعقولة وقت المعالجة". هذا معيار نسبي مرتبط بالتطور التقني؛ فما يُعدّ مجهول الهوية اليوم قد لا يكون كذلك مع تطور أساليب إعادة التعريف مستقبلاً.

تُضيف ANPD إرشادات أكثر دقة. إزالة المعرّفات المباشرة كـCPF والاسم وحدها لا تكفي. فمجموعات شبه المعرّفات قد تتضافر في إعادة التعريف؛ فالفئة العمرية والمدينة والجنس والمهنة مجتمعةً قد تكشف هوية الشخص، وتستلزم معالجة بالتجميع أو إضافة الضوضاء.

لبيانات تدريب الذكاء الاصطناعي، تشترط ANPD توافر أحد ثلاثة شروط: أولاً، استيفاء البيانات لمعيار المادة 12؛ ثانياً، منح كل صاحب بيانات موافقته الصريحة للاستخدام التدريبي المحدد؛ ثالثاً، وجود غرض موثّق وصالح.

اشتراطات اللغة البرتغالية

تختلف البرتغالية البرازيلية عن البرتغالية الأوروبية في المفردات والإملاء وأشكال الوثائق. تصل دقة نماذج NLP المدرَّبة على نصوص البرتغال إلى 71% تقريباً من دقة النماذج المدرَّبة على النصوص المحلية، استناداً إلى التقييم التقني لـANPD.

الفوارق الرئيسية لاكتشاف البيانات الشخصية:

  • الأسماء: استخدام اللقب المزدوج وترتيب الأسماء يختلفان عن البرتغال.
  • العناوين: تستخدم الرموز البريدية (CEP) التنسيق XXXXX-XXX، وهو تنسيق فريد يستلزم منطق كشف خاصاً.
  • مصطلحات الوثائق: "Carteira de Identidade" هنا مقابل "Bilhete de Identidade" في البرتغال. كذلك تختلف أسماء الوكالات.

ما يستلزمه الامتثال مع ANPD

أربع احتياجات تقنية تُغطّي متطلبات ANPD. يجب أن يشمل اكتشاف CPF وCNPJ التحقق بالخطوة المزدوجة. يجب أن يُغطّي اكتشاف RG جميع الولايات. كذلك يُطلب اكتشاف رقم SUS وTítulo de Eleitor. ويجب أن تكون نماذج NLP مدرَّبة على البرتغالية المحلية.

راجع دليلنا حول اكتشاف المعرّفات العالمية للبيانات الشخصية وإجراءات تطبيق LGPD في 2024.

المصادر

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.