By · Last updated 2026-06-05

חזרה לבלוגGDPR ועמידה

LGPD ברזיל: CPF, CNPJ והגנת נתונים

LGPD מכסה 215 מיליון ברזילאים ו-ANPD החל באכיפה מרכזית ב-2024. CPF מזוהה ב-45% דיוק בלבד על ידי כלים שאומנו על אנגלית.

June 5, 20268 דקות קריאה
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD ברזיל: CPF, CNPJ והגנת נתונים

חוק Lei Geral de Proteção de Dados (LGPD) של ברזיל מכסה 215 מיליון אנשים. הוא חוק הגנת הנתונים הגדול בעולם לפי אוכלוסייה. הוא מכסה יותר אנשים מגרמניה, צרפת ובריטניה ביחד. ה-Autoridade Nacional de Proteção de Dados (ANPD) הוציאה את קנסותיה הגדולים הראשונים ב-2024. תקופת החסד לאחר חקיקת LGPD ב-2020 הסתיימה.

יש גם אתגר טכני. מסמכי LGPD הם בפורטוגזית ברזילאית. מזהים לאומיים בברזיל שונים מאלה שבפורטוגל. הם גם שונים ממזהים של כל מדינה אחרת.

מדוע PII ברזילאי שונה

מערכות המזהה הפדרליות והמדינתיות של ברזיל התפצלו ממערכות זהות דיגיטליות אירופיות. זה יצר קבוצה ייחודית של מזהים. רוב כלי NLP מאומנים על נתונים אנגליים או אירופיים. הם נכשלים בזיהוי מזהים מקומיים.

CPF (Cadastro de Pessoas Físicas): מספר משלם המסים בן 11 ספרות. פורמט: XXX.XXX.XXX-XX. יש לו שתי ספרות ביקורת. הנוסחה משתמשת בשני שלבים מתמטיים נפרדים. שניהם חייבים להתאים כדי ש-CPF יהיה תקף.

פער הזיהוי גדול. כלי NLP שאומנו על אנגלית מזהים CPF ב-45% דיוק בלבד (ANPD, 2024). שני טעמים מסבירים זאת. ראשית, כלים שמתאימים מספרים בני 11 ספרות ללא לוגיקת ספרת ביקורת דו-שלבית מבלבלים מספרי CPF תקפים עם רצפים אקראיים. שנית, CPF לעיתים חסר את הפורמט XXX.XXX.XXX-XX. זה קורה בפלט OCR ובטפסי טקסט רגיל.

CNPJ (Cadastro Nacional da Pessoa Jurídica): מספר מזהה חברה בן 14 ספרות. פורמט: XX.XXX.XXX/XXXX-XX. גם לו שתי ספרות ביקורת. הנוסחה דומה ל-CPF אך אינה זהה.

RG (Registro Geral): תעודת זהות האזרחית המדינתית. הפורמט משתנה לפי מדינה. סאו פאולו משתמש ב-2 אותיות ו-5–9 ספרות. ריו דה ז'ניירו משתמש ב-7–8 ספרות עם מקף. מינאס ז'ריאיס משתמש ב-7–9 ספרות. למדינות אחרות יש פורמטים משלהן. כלי שמכיר רק את ה-RG של מדינה אחת יחמיץ את רוב מספרי RG.

CNH (Carteira Nacional de Habilitação): מספר רישיון הנהיגה בן 11 ספרות. יש לו ספרת ביקורת אחת. הפורמט כולל קוד מחוז.

Título de Eleitor: מספר תעודת המצביע בן 12 ספרות. יש לו שלושה חלקים: קוד מזהה בן 8 ספרות, קוד מדינה בן 2 ספרות ו-2 ספרות ביקורת.

מספר SUS (Cartão SUS): מספר בריאות ציבורי בן 15 ספרות. כל אדם במדינה מקבל אחד. מופיע בכל רשומות בתי החולים והקליניקות.

PIS/PASEP: מספר תוכנית חברתית בן 11 ספרות. מופיע בכל רשומת עבודה.

תקן האנונימיזציה של LGPD

סעיף 12 של LGPD מגדיר נתונים אנונימיים. הסטנדרט: נתונים שלא ניתן לזהות, בהתחשב באמצעים טכניים סבירים בזמן העיבוד. זהו סטנדרט יחסי לטכנולוגיה. נתונים אנונימיים של היום עלולים שלא להישאר כך כאשר שיטות זיהוי מחדש ישתפרו.

ANPD מוסיפה הנחיות נוספות. הסרת מזהים ישירים כמו CPF ושם אינה מספיקה. קבוצות של מזהים כמה-שכמעט עדיין עלולות לאפשר זיהוי מחדש. טווח גיל, עיר, מגדר ועבודה יחד עלולים לזהות אדם. יש לטפל בהם על ידי קיבוץ או הוספת רעש.

לנתוני אימון AI, ANPD דורש אחד משלושה תנאים. ראשית: הנתונים עומדים בסטנדרט סעיף 12. שנית: כל נושא נתונים נתן הסכמה מפורשת לשימוש האימון הספציפי. שלישית: יש מטרה מתועדת תקפה.

דרישות שפה פורטוגזית

פורטוגזית ברזילאית שונה מפורטוגזית אירופית. המילים, האיות וצורות המסמכים אינם זהים. מודלי NLP שאומנו על טקסט פורטוגז מגיעים לכ-71% מהדיוק של מודלים שאומנו על טקסט מקומי. זה נובע מהערכה הטכנית של ANPD.

הבדלים מרכזיים לזיהוי PII:

  • שמות: שימוש בשם כפול וסדר שמות שונים מפורטוגל.
  • כתובות: קודי CEP משתמשים בפורמט XXXXX-XXX. פורמט זה ייחודי למדינה. הוא דורש לוגיקת זיהוי משלו.
  • מונחי מסמכים: "Carteira de Identidade" כאן לעומת "Bilhete de Identidade" בפורטוגל. שמות סוכנויות גם שונים.

מה עמידת ANPD דורשת

ארבע צרכים טכניים מכסים עמידת ANPD. זיהוי CPF ו-CNPJ חייב לכלול אימות ספרת ביקורת דו-שלבי. זיהוי RG חייב לכסות את כל המדינות. נדרשים גם זיהוי מספר SUS ו-Título de Eleitor. מודלי NLP חייבים להיות מאומנים על פורטוגזית מקומית.

ראו את המדריך שלנו לזיהוי מזהי PII גלובלי ופעולות אכיפת LGPD ב-2024.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.