By · Last updated 2026-06-05

بلاگ پر واپس جائیںGDPR اور تعمیل

LGPD برازیل: CPF، CNPJ، اور ڈیٹا تحفظ

LGPD 215 ملین برازیلیوں کو کور کرتا ہے اور ANPD نے 2024 میں بڑا نفاذ شروع کیا۔ انگریزی تربیت یافتہ ٹولز CPF کو صرف 45٪ درستگی سے پہچانتے ہیں۔

June 5, 20268 منٹ پڑھیں
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD برازیل: CPF، CNPJ، اور ڈیٹا تحفظ

برازیل کا Lei Geral de Proteção de Dados (LGPD) 215 ملین لوگوں کو کور کرتا ہے۔ یہ آبادی کے لحاظ سے دنیا کا تیسرا سب سے بڑا ڈیٹا تحفظ قانون ہے۔ یہ جرمنی، فرانس، اور UK سے زیادہ لوگوں کو کور کرتا ہے۔ Autoridade Nacional de Proteção de Dados (ANPD) نے 2024 میں پہلے بڑے جرمانے جاری کیے۔ LGPD کے 2020 نفاذ کے بعد کا احتساب کا دور ختم ہو گیا ہے۔

ایک تکنیکی چیلنج بھی ہے۔ LGPD دستاویزات برازیلی پرتگالی میں ہیں۔ برازیل میں قومی IDs پرتگال کی IDs سے مختلف ہیں۔ یہ کسی دوسرے ملک کی IDs سے بھی مختلف ہیں۔

برازیلی PII کیوں مختلف ہے

برازیل کے وفاقی اور ریاستی ID نظام یورپی ڈیجیٹل شناخت نظاموں سے الگ ہو گئے۔ اس نے ایک منفرد شناخت کنندگان کا سیٹ بنایا۔ زیادہ تر NLP ٹولز انگریزی یا یورپی ڈیٹا پر تربیت یافتہ ہیں۔ وہ مقامی IDs کا پتہ لگانے میں ناکام رہتے ہیں۔

CPF (Cadastro de Pessoas Físicas): 11 ہندسی ٹیکس دہندہ نمبر۔ فارمیٹ: XXX.XXX.XXX-XX۔ اس کے دو چیک ہندسے ہیں۔ فارمولا دو الگ ریاضی قدم استعمال کرتا ہے۔ CPF کو درست بنانے کے لیے دونوں کا ملنا ضروری ہے۔

شناخت کا فرق بڑا ہے۔ انگریزی تربیت یافتہ NLP ٹولز CPF کو صرف 45٪ درستگی سے پہچانتے ہیں (ANPD، 2024)۔ دو وجوہات اس کی وضاحت کرتی ہیں۔ پہلی، ٹولز جو دو قدمی چیک ہندسہ منطق کے بغیر 11 ہندسی نمبر میچ کرتے ہیں، درست CPF نمبروں کو بے ترتیب ترتیبوں سے الجھاتے ہیں۔ دوسری، CPF کبھی کبھی XXX.XXX.XXX-XX فارمیٹ کے بغیر ہوتا ہے۔ یہ OCR آؤٹ پٹ اور سادہ متن فارمز میں ہوتا ہے۔

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14 ہندسی کمپنی ID نمبر۔ فارمیٹ: XX.XXX.XXX/XXXX-XX۔ اس کے بھی دو چیک ہندسے ہیں۔ فارمولا CPF جیسا ہے لیکن ایک نہیں۔

RG (Registro Geral): ریاستی شہری ID کارڈ۔ فارمیٹ ریاست کے لحاظ سے مختلف ہوتا ہے۔ ساؤ پاؤلو 2 حروف اور 5–9 ہندسے استعمال کرتا ہے۔ ریو ڈی جنیرو ایک ڈیش کے ساتھ 7–8 ہندسے استعمال کرتا ہے۔ میناس گیرائس 7–9 ہندسے استعمال کرتا ہے۔ دوسری ریاستوں کے اپنے فارمیٹس ہیں۔ ایک ٹول جو صرف ایک ریاست کا RG جانتا ہے زیادہ تر RG نمبر نظر انداز کرے گا۔

CNH (Carteira Nacional de Habilitação): 11 ہندسی ڈرائیونگ لائسنس نمبر۔ اس کا ایک چیک ہندسہ ہے۔ فارمیٹ میں ڈسٹرکٹ کوڈ شامل ہے۔

Título de Eleitor: 12 ہندسی ووٹر ID نمبر۔ اس کے تین حصے ہیں: ایک 8 ہندسی ID کوڈ، ایک 2 ہندسی ریاست کوڈ، اور 2 چیک ہندسے۔

SUS نمبر (Cartão SUS): 15 ہندسی عوامی صحت ID۔ ملک کا ہر شخص ایک حاصل کرتا ہے۔ یہ تمام ہسپتال اور کلینک ریکارڈز میں ظاہر ہوتا ہے۔

PIS/PASEP: 11 ہندسی سوشل پروگرام نمبر۔ یہ ہر روزگار ریکارڈ میں ظاہر ہوتا ہے۔

LGPD گمنامی کا معیار

LGPD آرٹیکل 12 گمنام ڈیٹا کی تعریف کرتا ہے۔ معیار: ڈیٹا "پروسیسنگ کے وقت معقول تکنیکی ذرائع کو مدنظر رکھتے ہوئے، شناخت نہیں کیا جا سکتا۔" یہ ٹیکنالوجی سے متعلق معیار ہے۔ آج کا گمنام ڈیٹا ایسا نہیں رہ سکتا جیسے re-ID طریقے بہتر ہوتے ہیں۔

ANPD مزید رہنمائی فراہم کرتا ہے۔ CPF اور نام جیسے براہ راست شناخت کنندگان ہٹانا کافی نہیں ہے۔ نیم شناخت کنندگان کے گروپ اب بھی re-ID کی اجازت دے سکتے ہیں۔ عمر کی حد، شہر، جنس، اور ملازمت مل کر کسی شخص کی شناخت کر سکتے ہیں۔ ان کو گروپ بندی یا شور اضافے سے سنبھالنا ہوگا۔

AI تربیتی ڈیٹا کے لیے، ANPD تین شرائط میں سے ایک کی ضرورت کرتا ہے۔ پہلی: ڈیٹا آرٹیکل 12 معیار پورا کرتا ہے۔ دوسری: ہر ڈیٹا سبجیکٹ نے مخصوص تربیتی استعمال کے لیے واضح رضامندی دی۔ تیسری: ایک درست دستاویزی مقصد ہے۔

پرتگالی زبان کی ضروریات

برازیلی پرتگالی یورپی پرتگالی سے مختلف ہے۔ الفاظ، ہجے، اور دستاویز کی شکلیں ایک جیسی نہیں ہیں۔ پرتگال کے متن پر تربیت یافتہ NLP ماڈل مقامی متن پر تربیت یافتہ ماڈلز کی درستگی کا تقریباً 71٪ تک پہنچتے ہیں۔ یہ ANPD کے تکنیکی جائزے سے آتا ہے۔

PII شناخت کے لیے اہم فرق:

  • نام: دوہرے کنیت کے استعمال اور نام کی ترتیب پرتگال سے مختلف ہیں۔
  • پتے: CEP کوڈ فارمیٹ XXXXX-XXX استعمال کرتے ہیں۔ یہ فارمیٹ اس ملک کے لیے منفرد ہے۔ اسے اپنی شناخت منطق کی ضرورت ہے۔
  • دستاویز کی اصطلاحات: یہاں "Carteira de Identidade" بمقابلہ پرتگال میں "Bilhete de Identidade"۔ ایجنسی کے نام بھی مختلف ہیں۔

ANPD تعمیل کو کیا چاہیے

چار تکنیکی ضروریات ANPD تعمیل کو کور کرتی ہیں۔ CPF اور CNPJ شناخت میں دو قدمی چیک ہندسہ تصدیق شامل ہونی چاہیے۔ RG شناخت تمام ریاستوں کو کور کرنی چاہیے۔ SUS نمبر اور Título de Eleitor شناخت بھی ضروری ہے۔ NLP ماڈل مقامی پرتگالی متن پر تربیت یافتہ ہونے چاہئیں۔

عالمی PII شناخت کنندہ شناخت اور 2024 میں LGPD نفاذ کارروائیاں پر ہماری رہنمائیاں دیکھیں۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.