By · Last updated 2026-05-18

חזרה לבלוגGDPR ועמידה

LGPD ברזיל: CPF, CNPJ והגנת נתונים

LGPD מכסה 215 מיליון ברזילאים וה-ANPD החל אכיפה מרכזית ב-2024. CPF מזוהה בדיוק של 45% בלבד על ידי כלים מאומנים באנגלית.

May 18, 20268 דקות קריאה
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

חוק הגנת הנתונים הכללי הברזילאי Lei Geral de Proteção de Dados (LGPD) הוא מסגרת הגנת הנתונים השלישית בגודלה בעולם לפי אוכלוסייה מכוסה — 215 מיליון ברזילאים, יותר מגרמניה, צרפת ובריטניה ביחד. הרשות הלאומית להגנת נתונים Autoridade Nacional de Proteção de Dados (ANPD) הוציאה את פעולות האכיפה המרכזיות הראשונות שלה ב-2024, ומסמנת את סיום תקופת הגרייס שלאחר חקיקת ה-LGPD ב-2020.

האתגר התאימות הטכני הוא ייחודי: פורטוגזית ברזילאית היא שפת מסמכי ה-LGPD, אך המזהים הלאומיים הברזילאיים שונים לחלוטין ממזהי הפורטוגזית האירופית — ומכל מערכת זיהוי לאומית אחרת בעולם.

מדוע PII ברזילאי שונה מבחינה טכנית

מערכות הזיהוי הפדרלי והמדינתי הברזילאיות התפתחו בנפרד ממסגרות הזהות הדיגיטלית האירופיות. התוצאה היא מערך מורכב של מזהים שכלי NLP גנריים — רוב המאומנים על נתונים באנגלית או בשפות אירופיות — אינם מצליחים לזהות:

CPF (Cadastro de Pessoas Físicas): רישום נישום פרטני בן 11 ספרות הוא המזהה האוניברסלי לאזרח ברזיל. פורמט: XXX.XXX.XXX-XX עם שתי ספרות ביקורת. אלגוריתם ספרת הביקורת של CPF משתמש בשני חישובי אריתמטיקה מודולרית נפרדים — אם שתי ספרות הביקורת תואמות, ה-CPF תקין.

הבעיה הטכנית: CPF מזוהה בדיוק של 45% בלבד על ידי כלי NLP המאומנים באנגלית (הערכה טכנית של ANPD 2024). הכשלים: כלים שמתאימים תבניות של 11 ספרות ללא אימות ספרת הביקורת הדו-שלבי אינם יכולים להבחין בין מספרי CPF תקינים לרצפים אקראיים; ו-CPF מופיע במסמכים ברזילאיים ללא פורמט XXX.XXX.XXX-XX הסטנדרטי בחלק מהקשרים.

CNPJ (Cadastro Nacional da Pessoa Jurídica): מספר רישום חברה בן 14 ספרות. פורמט: XX.XXX.XXX/XXXX-XX עם שתי ספרות ביקורת המשתמשות באלגוריתמים דומים (אך לא זהים) ל-CPF.

RG (Registro Geral): מסמך זהות אזרחית שהוצא על ידי מדינות ברזיל. בניגוד ל-CPF (פדרלי, אחיד), הפורמט של RG משתנה לפי המדינה שמוציאה:

  • סאו פאולו: 2 אותיות + 5-9 ספרות (למשל, MG-12.345.678)
  • ריו דה ז'ניירו: 7-8 ספרות עם מקף
  • מינאס ז'ריי: 7-9 ספרות
  • מדינות אחרות: פורמטים שונים

כלי שמזהה רק את פורמט ה-RG של מדינה אחת מפספס את הרוב המכריע של מספרי RG במסמכים ברזילאיים.

CNH (Carteira Nacional de Habilitação): מספר רישיון נהיגה בן 11 ספרות עם ספרת ביקורת. ה-CNH מונפק ברמה פדרלית אך הפורמט כולל קידוד מחוז רישום.

Título de Eleitor (רישום בוחרים): מספר בן 12 ספרות עם 3 רכיבים — קוד זיהוי (8 ספרות), קוד מדינה (2 ספרות), ספרות ביקורת (2 ספרות).

מספר SUS (Cartão SUS): מספר מערכת בריאות מאוחדת בן 15 ספרות המוקצה לכל ברזילאי לצורך גישה לשירותי בריאות ציבוריים. מופיע בכל רשומות בתי החולים הציבוריים והטיפול הראשוני.

PIS/PASEP: מספר תוכנית שילוב חברתי בן 11 ספרות, המשמש בכל רשומות התעסוקה.

תקן האנונימיזציה של LGPD

סעיף 12 ל-LGPD מגדיר נתונים אנונימיים כנתונים "הנוגעים לנושא הנתונים שלא ניתן לזהות, בהתחשב בשימוש באמצעים טכניים סבירים הזמינים בעת העיבוד." זהו תקן יחסי לטכנולוגיה — מה שאנונימי היום עשוי שלא להיות אנונימי כשיתפתחו טכניקות זיהוי מחדש עתידיות.

הנחיית ANPD מבהירה שאנונימיזציה דורשת יותר מהסרת מזהים מפורשים (CPF, שם). שילובי מזהים משניים (טווח גיל, עיר, מגדר, מקצוע) עשויים לאפשר זיהוי מחדש ויש לטפל בהם דרך הכללה או הוספת רעש.

לנתוני אימון AI, ANPD דורש שהנתונים המשמשים לאימון LLM או מודלים של ML יהיו:

  • אנונימיים באמת (עומדים בתקן הטכני של סעיף 12), או
  • בעלי הסכמה מפורשת מכל נושא נתונים לשימוש האימון הספציפי, או
  • כשירים תחת מטרה לגיטימית עם הצדקה מתועדת

דרישות שפת פורטוגזית ברזילאית

פורטוגזית ברזילאית שונה מפורטוגזית אירופית באוצר מילים, כתיב ומוסכמות מסמכים. מודלי NLP המאומנים על פורטוגזית אירופית (פורטוגל) מבצעים בדיוק של כ-71% בהשוואה למודלים המאומנים ספציפית על טקסט פורטוגזית ברזילאית (הערכה טכנית של ANPD).

הבדלים ספציפיים הרלוונטיים לזיהוי PII:

  • מוסכמות שמות: שמות ברזילאיים עוקבים אחר תבניות שונות משמות פורטוגזיים. שמות משפחה ברזילאיים נפוצים (Silva, Santos, Oliveira, Souza) זהים, אך מוסכמות שמות (שמות משפחה כפולים, העדפות סדר) שונות.
  • פורמטי כתובת: כתובות ברזילאיות משתמשות ב-"Rua", "Avenida", "Alameda", "Travessa" באופן דומה לפורטוגל, אך קוד CEP הדואר (פורמט 8 ספרות: XXXXX-XXX) הוא ייחודי לברזיל ודורש זיהוי קוד דואר ברזילאי.
  • מינוח מסמכים: סוגי מסמכים ברזילאיים משתמשים במינוח שונה מפורטוגזית אירופית — "Carteira de Identidade" לעומת "Bilhete de Identidade" לתעודת זהות לאומית, שמות סוכנויות ממשלתיות שונים.

לעמידה ב-LGPD: CPF ו-CNPJ עם אימות ספרת ביקורת דו-שלבי, זיהוי פורמט RG של מספר מדינות, זיהוי מספר SUS ו-Título de Eleitor, ותמיכה במודל NLP בפורטוגזית ברזילאית הם הבסיס הטכני לעמידה בתקני ANPD.

מקורות:

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.