By · Last updated 2026-03-20

بلاگ پر واپس جائیںGDPR اور تعمیل

صرف انگریزی PII ٹولز: GDPR کا خلا

جرمن Steuer-ID (11 ہندسے چیکسم کے ساتھ) ساختی طور پر امریکی SSN سے بالکل مختلف ہے۔ فرانسیسی NIR نمبروں میں 15 ہندسے ہوتے ہیں۔ پولش PESEL اور سویڈش Personnummer کی اپنی منفرد ساخت ہے۔

March 20, 20268 منٹ پڑھیں
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

صرف انگریزی PII ٹولز: GDPR کا خلا

GDPR کی کوئی زبانی ترجیح نہیں

GDPR کسی بھی زبان میں ذاتی ڈیٹا کو ڈھانپتا ہے۔ جرمن، فرانسیسی، پولش، سویڈش — سب یکساں طور پر ڈھانپے گئے ہیں۔ ایک چھوٹی گئی Steuer-ID امریکی سوشل سیکیورٹی نمبر کی طرح ہی قانونی خطرہ پیدا کرتی ہے۔ قانون زبان کی پرواہ نہیں کرتا۔

زیادہ تر PII ڈیٹیکشن ٹول کرتے ہیں۔

سرکردہ تجارتی اور اوپن سورس ٹول انگریزی متن کے لیے بنائے گئے ہیں۔ ان کے ادارہ شناخت کار اسی کی عکاسی کرتے ہیں۔ یہ امریکی سوشل سیکیورٹی نمبرز، امریکی ڈرائیونگ لائسنس اور NANP فون فارمیٹس کو اچھی طرح ڈھانپتے ہیں۔ غیر انگریزی قومی IDs کے شناخت کار کم درست ہیں۔ ان کی کم دیکھ بھال ہوتی ہے۔ یہ حقیقی شناخت کاروں کو زیادہ کثرت سے چھوڑ دیتے ہیں۔

EU رکن ریاستوں میں فرموں کے لیے، یہ کوریج کا خلا پیدا کرتا ہے۔ ٹول کہتا ہے کہ ڈیٹیکشن مکمل ہے۔ لیکن غیر انگریزی شناخت کار ڈیٹا میں باقی رہتے ہیں۔ یہ اکثر وہ شناخت کار ہوتے ہیں جو بعض ممالک میں سب سے زیادہ GDPR خطرہ رکھتے ہیں۔

ڈیٹا حکام یہ دیکھتے ہیں۔ آڈیٹر اسے تلاش کرتے ہیں۔ ایک ٹول انگریزی ریکارڈ پر اچھا کام کر سکتا ہے۔ لیکن اگر یہ جرمن یا فرانسیسی ریکارڈ پر ناکام رہتا ہے، تو یہ تطابق میں نہیں ہے۔ صاف رپورٹ اسے نہیں بدلتی۔

قومی IDs کی ساخت مختلف ہوتی ہے

انگریزی مرکوز اور کثیر لسانی ٹولز کے درمیان خلا صرف مزید ریجیکس پیٹرن شامل کرنے کا معاملہ نہیں ہے۔ EU قومی شناخت کار ایک دوسرے سے بہت مختلف ہیں۔ انہیں درست شناخت کے لیے ملک مخصوص منطق چاہیے۔

جرمن Steuer-Identifikationsnummer (Steuer-ID): 11 ہندسے۔ یہ Luhn فارمولا کی ایک قسم پر مبنی چیکسم استعمال کرتا ہے۔ عام SSN ریجیکس اسے میچ نہیں کرے گا۔ کسی بھی 11 ہندسے کے نمبر کا ریجیکس جرمن دستاویزات میں بہت زیادہ غلط مثبتیں پیدا کرتا ہے۔

فرانسیسی NIR (Numéro d'inscription au répertoire): 15 ہندسے۔ فارمیٹ جنس، پیدائش کا سال، پیدائش کا مہینہ، اور پیدائش کا محکمہ کوڈ کرتا ہے۔ اس میں پیدائشی ترتیب اور ایک 2 ہندسوں کی کنٹرول کلید بھی شامل ہے۔ درست شناخت کے لیے کنٹرول کلید کی تصدیق ضروری ہے۔

سویڈش Personnummer: Luhn چیک ڈیجٹ کے ساتھ 10 ہندسے۔ 1990 سے پہلے پیدا ہونے والے لوگ - کی بجائے + سپریٹر استعمال کرتے ہیں۔ اس سے وہ فارمیٹ بدل جاتا ہے جسے شناخت کرنا ضروری ہے۔

پولش PESEL: 11 ہندسے۔ یہ پیدائش کی تاریخ، جنس، اور وزنی مجموع پر مبنی چیک ڈیجٹ کوڈ کرتا ہے۔ درست شناخت کے لیے فارمیٹ میچنگ اور چیکسم تصدیق دونوں ضروری ہیں۔

یہ ایک مشترک نمونے کی قسمیں نہیں ہیں۔ ہر ایک کی لمبائی مختلف ہے۔ ہر ایک مختلف جانچ کا طریقہ استعمال کرتا ہے۔ ہر ایک مختلف پوزیشن اسکیم میں ڈیٹا کوڈ کرتا ہے۔ انگریزی پر تربیت یافتہ NER ماڈل جو فرانسیسی NIR دیکھتا ہے وہ اسے قومی شناخت کار کے طور پر نہیں پہچانے گا۔ یہ اسے نظرانداز کرے گا یا غلط درجہ بندی کرے گا۔

عملی تطابق کا خطرہ

ایک یورپی BPO میں ایک تطابق افسر پر غور کریں۔ وہ ایک ساتھ جرمنی، فرانس، پولینڈ اور نیدرلینڈز کا ڈیٹا پروسیس کرتے ہیں۔ ان کا ٹول کامیاب PII گمنامی کی رپورٹ کرتا ہے۔

لیکن نتیجہ مکمل نہیں ہے۔ جرمن ریکارڈ میں Steuer-IDs باقی ہیں۔ فرانسیسی ریکارڈ میں NIR نمبر باقی ہیں۔ پولش ریکارڈ میں PESEL نمبر باقی ہیں۔ ان فارمیٹس کے لیے ٹول کے شناخت کار غائب یا بہت غیر درست ہیں۔

بعد میں، ڈیٹاسیٹ تجزیاتی یا تحقیقی شراکت دار کے پاس جاتا ہے۔ ڈیٹا میں ابھی بھی قومی شناخت کار موجود ہیں جن سے دوبارہ شناخت ممکن ہے۔ GDPR کا مسئلہ ٹول کے آؤٹ پٹ لاگز میں ظاہر نہیں ہوتا۔ یہ اس وقت سامنے آتا ہے جب ڈیٹا موضوع رسائی کی درخواست آتی ہے۔ یہ ڈیٹا اتھارٹی آڈٹ کے دوران سامنے آ سکتا ہے۔ یہ ڈیٹا خلاف ورزی کے بعد سامنے آ سکتا ہے۔

انگریزی مرکوز ٹولز کے مقابلے میں ہائبرڈ کثیر لسانی نقطہ نظر کا موازنہ کرنے والی تحقیق نے واضح نتائج پائے۔ ہائبرڈ طریقے یورپی مقامات پر F1 اسکور 0.60 سے 0.83 حاصل کرتے ہیں۔ صرف انگریزی ٹولز غیر انگریزی قومی ID فارمیٹس کے لیے صفر کے قریب اسکور کرتے ہیں۔

یہ خلاء GDPR ذمہ داریوں سے کیسے جڑتا ہے اس کے لیے ہمارا GDPR تطابق جائزہ دیکھیں۔

مکمل کوریج کے لیے کیا ضروری ہے

EU GDPR تطابق کے لیے حقیقی کثیر لسانی PII ڈیٹیکشن کے تین تہوں کی ضرورت ہے۔

زبان مقامی spaCy ماڈل متن کی زبان میں معنوی سمجھ فراہم کرتے ہیں۔ جرمن متن پر تربیت یافتہ ماڈل جانتا ہے کہ "Müller" ایک عام جرمن کنیت ہے۔ 25 اعلی وسائل EU زبانوں کے لیے ماڈل موجود ہیں۔

Stanza NLP ماڈل spaCy میں نہ ہونے والی زبانوں تک کوریج بڑھاتے ہیں۔ یہ مزید EU زبان برادریوں کے لیے رسائی بڑھاتا ہے۔

کراس لسانی ٹرانسفارمر ماڈل (XLM-RoBERTa) کراس لینگویج کیسز کو سنبھالتے ہیں۔ فرانسیسی جملے میں ایک نام ایک شخص کے نام کے طور پر پہچانا جاتا ہے۔ یہ اس وقت بھی کام کرتا ہے جب انجن کو اس مخصوص نام پر تربیت نہیں دی گئی۔

ملک مخصوص تصدیق کے ساتھ ریجیکس ساختی قومی شناخت کاروں کو ڈھانپتا ہے۔ Steuer-ID، NIR، PESEL، اور Personnummer ہر ایک کو اپنی چیکسم منطق چاہیے۔ یہ غلط مثبتیں کم کرتا ہے۔ ہندسوں کی ترتیبیں جو ملک تصدیق کے اصولوں میں ناکام رہتی ہیں فلٹر ہو جاتی ہیں۔

خلاء ساختی ہے۔ لفظ فہرستیں شامل کرنا یا مزید ریجیکس پیٹرن صرف معمولی بہتری دیتے ہیں۔ EU شناخت کار کوریج شروع سے بنانا ہی واحد قابل اعتماد نقطہ نظر ہے۔

اپنا موجودہ ٹول جانچیں

اپنے وینڈر سے جرمن، فرانسیسی، پولش اور ڈچ ریکارڈ پر F1 اسکور مانگیں۔ "متعدد زبانوں کو سپورٹ کرتا ہے" کا اکثر مطلب یہ ہوتا ہے کہ ٹول پہلے ترجمہ کرتا ہے۔ یہ مقامی اسکیننگ نہیں ہے۔ GDPR تطابق کے لیے مقامی اسکیننگ ضروری ہے۔

حقیقی قومی ID نمونوں سے جانچیں۔ اپنی کارروائیوں میں ہر ID قسم کی 10 مثالوں کا ایک مختصر ٹیسٹ سیٹ بنائیں: Steuer-ID، NIR، PESEL، Personnummer۔ ڈیٹیکشن شرحیں جانچیں۔ یہ مکمل F1 ٹیسٹ سے تیز ہے اور خلاء جلدی دکھاتا ہے۔

ہمارا سیکیورٹی اور تطابق کا صفحہ دیکھیں کہ anonym.legal ان ضروریات کو کیسے پورا کرتا ہے۔ ادارے کی قسم کی تعریفوں کے لیے ادارے کا حوالہ دیکھیں۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.