By · Last updated 2026-03-03

بلاگ پر واپس جائیںGDPR اور تعمیل

GDPR کے لیے کثیر لسانی PII کا پتہ لگانا

جرمن Steuer-ID، فرانسیسی NIR، اور سویڈش Personnummer سب کے لیے مختلف ڈیٹیکشن منطق درکار ہے۔

March 3, 202610 منٹ پڑھیں
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

GDPR کے لیے کثیر لسانی PII کا پتہ لگانا

2026 کے لیے اپ ڈیٹ شدہ

چھپا ہوا GDPR خلاء

GDPR کی کوئی زبانی ترجیح نہیں ہے۔ آرٹیکل 4(1) "ذاتی ڈیٹا" کی تعریف اس زبان کا نام لیے بغیر کرتا ہے جس میں یہ ظاہر ہوتا ہے۔ جرمن Steuer-ID اتنی ہی محفوظ ہے جتنی US سوشل سیکیورٹی نمبر۔ فرانسیسی NIR اتنی ہی ریگولیٹڈ ہے جتنی UK نیشنل انشورنس نمبر۔

زیادہ تر PII ڈیٹیکشن ٹولز صرف انگریزی کے لیے بنائے گئے تھے۔

ACL 2024 کی تحقیق سے پتہ چلا کہ ہائبرڈ NLP ٹولز یورپی لوکلز کے لیے F1 اسکور 0.60-0.83 تک پہنچتے ہیں۔ صرف انگریزی ٹولز غیر انگریزی قومی ID فارمیٹس کے لیے صفر کے قریب اسکور کرتے ہیں۔ خلاء واضح ہے۔ ایک ٹول انگریزی PII کا 95% پکڑ سکتا ہے۔ پھر بھی یہ ایک ہی فائل میں جرمن، فرانسیسی، پولش، یا ڈچ PII کا 40-60% چھوڑ دیتا ہے۔ یہ ایک سنگین مسئلہ ہے۔ یہ کمپنیوں کو خطرے میں ڈالتا ہے۔

یہ ایک حقیقی GDPR خلاء ہے۔ یہ انگریزی-مرکز ریڈیکشن ٹولز استعمال کرنے والی تقریباً ہر عالمی فرم کو متاثر کرتا ہے۔ مزید کے لیے ہمارا GDPR گائیڈ دیکھیں۔

PII لوکل-مخصوص کیوں ہے

PII ڈیٹیکشن کے دو حصے ہیں۔

پہلا پیٹرن-بیسڈ اسکیننگ ہے۔ یہ ٹیکس نمبرز اور فون فارمیٹس جیسے ساختی IDs کو کور کرتا ہے۔

dوسرا NER-بیسڈ اسکیننگ ہے۔ یہ نام اور پتوں جیسی سیاق و سباق کی اکائیوں کو کور کرتا ہے۔

دونوں حصے لوکل پر منحصر ہیں۔

ساختی IDs ملک کے لحاظ سے مختلف ہیں

ملکٹیکس IDفارمیٹتصدیق
جرمنیSteuer-ID11 ارقامModulo-11
فرانسNIR15 ارقام + 2 رقمی کلیدINSEE
سویڈنPersonnummer10 ارقامLuhn
پولینڈPESEL11 ارقامModulo-10
نیدرلینڈزBSN9 ارقامElfproef
ہسپانیہDNI/NIE8 ارقام + حرفModulo-23
اٹلیCodice Fiscale16 کریکٹرکسٹم چیک سم

SSNs (NNN-NN-NNNN) کے لیے صرف انگریزی ریجیکس ان میں سے کسی فارمیٹ سے میل نہیں کھائے گا۔ ہر ایک کو اپنا ریجیکس چاہیے۔ ہر ایک کو اپنی چیک سم منطق بھی چاہیے۔

NER کو مقامی ماڈلز کی ضرورت ہے

جرمن نام انگریزی ناموں سے مختلف ہیں۔ "Hans-Dieter Müller" مقامی جرمن ماڈل کو واضح ہے۔ انگریزی-تربیت یافتہ ماڈل اکثر ایسے ناموں کو چھوڑ دیتا ہے۔

جھوٹے مثبت نتائج بھی ایک مسئلہ ہیں۔ Microsoft Presidio کا ایشو ٹریکر جرمن الفاظ کو انگریزی PII کے طور پر غلط درجہ بندی ہوتے دکھاتا ہے۔ لفظ "Null" (جرمن میں "صفر" کے لیے) ایک مثال ہے۔ یہ انگریزی-تربیت یافتہ ماڈلز میں جھوٹے نام ہٹس شروع کرتا ہے۔ پروڈکشن استعمال میں، ایرر ریٹ فی حقیقی ادارے 3 جھوٹے مثبت تک پہنچ جاتی ہے (Alvaro et al., 2024)۔

ریگولیٹری خطرہ

EU ڈیٹا ادارے اس مسئلے سے آگاہ ہیں۔ متعدد قومی DPAs نے رہنمائی جاری کی ہے۔

جرمن BfDI: GDPR آرٹیکل 5(1)(f) تمام ریکارڈز پر لاگو ہوتا ہے۔ یہ تھرڈ-پارٹی ٹولز کے ذریعے پروسیس کیے گئے غیر انگریزی ڈیٹا کو کور کرتا ہے۔

فرانسیسی CNIL: 2024 CNIL سالانہ رپورٹ نے تشویش اٹھائی۔ اس نے ایسے AI ٹولز کو نشان زد کیا جو فرانسیسی-لوکل PII اسکیننگ کے بغیر فرانسیسی ریکارڈز ہینڈل کرتے ہیں۔

EU DPAs وسیع طور پر: GDPR آرٹیکل 25 (پرائیویسی بائی ڈیزائن) ایسے حفاظتی اقدامات کی ضرورت ہے جو پروسیس کیے جا رہے حقیقی ریکارڈز کے لیے موزوں ہوں۔ اس میں عالمی تعیناتیوں میں غیر انگریزی PII شامل ہے۔

خطرہ واضح ہے۔ ایک فرم GDPR آڈٹ میں انگریزی مواد پر 95% PII ڈیٹیکشن دکھا سکتی ہے۔ لیکن اگر یہ ایک ہی ٹول سے جرمن، فرانسیسی، اور پولش ریکارڈز بھی ہینڈل کرتی ہے تو خلاء ظاہر ہوں گے۔ آڈیٹرز نوٹس کرتے ہیں۔ جرمانے آ سکتے ہیں۔ ہم اس سے کیسے نمٹتے ہیں اس کے لیے ہمارا سیف گارڈز پیج دیکھیں۔

تین-درجے کا ڈیزائن

تحقیق اور پروڈکشن تین-درجے کے ہائبرڈ ڈیزائن کو بہترین اپروچ کے طور پر متفق ہیں۔

درجہ 1: مقامی spaCy ماڈلز

spaCy 25 لوکلز کے لیے تربیت یافتہ ماڈلز فراہم کرتا ہے۔ ان میں جرمن، فرانسیسی، ہسپانوی، پرتگالی، اطالوی، ڈچ، روسی، چینی، جاپانی، کورین، اور پولش شامل ہیں۔ ہر ماڈل مقامی متن پر تربیت دیتا ہے۔ وہ ہر لوکل کے نحوی اور ادارہ کے پیٹرن سیکھتے ہیں۔ یہ اہمیت رکھتا ہے۔ مقامی تربیت کا مطلب بہتر یاد اور کم جھوٹے مثبت ہے۔

جرمن کے لیے: de_core_news_lg مرکب اسماء اور جرمن نام کے پیٹرن ہینڈل کرتا ہے۔ فرانسیسی کے لیے: fr_core_news_lg فرانسیسی اکائیاں، عنوانات، جگہوں کے نام، اور تنظیمیں ہینڈل کرتا ہے۔

مقامی ماڈلز اعلی-وسائل لوکلز کے لیے نام اسکیننگ میں کراس-لنگوئل ماڈلز کو پیچھے چھوڑتے ہیں۔

درجہ 2: زیادہ لوکلز کے لیے Stanza

Stanford کی Stanza لائبریری ان لوکلز کو کور کرتی ہے جو spaCy میں نہیں ہیں۔ ان میں کروشین، سلووینین، اور یوکرینی شامل ہیں۔ یہ EU اسپیکر گروپس کے لیے رسائی بڑھاتا ہے جن کی spaCy خدمت نہیں کرتا۔ Stanza مفت اور اوپن سورس ہے۔ یہ بقیہ اسٹیک کے ساتھ اچھی طرح ضم ہوتا ہے۔

درجہ 3: وسیع رسائی کے لیے XLM-RoBERTa

ان لوکلز کے لیے جہاں spaCy اور Stanza میں NER ماڈلز کی کمی ہے، XLM-RoBERTa خلاء پُر کرتا ہے۔ یہ 100 لوکلز میں Common Crawl ٹیکسٹ پر تربیت لیتا ہے۔ یہ PII ڈیٹیکشن کے لیے 91.4% کراس-لنگوئل F1 حاصل کرتا ہے (HuggingFace 2024)۔ یہ کوڈ-سوئچنگ کو اچھی طرح ہینڈل کرتا ہے۔ یہ ایک اہم خصوصیت ہے۔ یہ اس وقت اہمیت رکھتی ہے جب ایک دستاویز میں کئی لوکلز میں ٹیکسٹ ہو۔

APIی کالز کثیر لسانی والیوم کے ساتھ کیسے اسکیل ہوتی ہیں یہ دیکھنے کے لیے ہمارے ٹوکن سسٹم دستاویزات دیکھیں۔

لوکل-مخصوص ادارہ اقسام

صرف ماڈلز کافی نہیں ہیں۔ GDPR الائنمنٹ کے لیے ملک-مخصوص IDs کے لیے ادارہ قسم کا دائرہ بھی درکار ہے۔

ملک کے لحاظ سے EU قومی IDs:

  • DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
  • FR: NIR، SIREN، SIRET
  • PL: PESEL، NIP، REGON
  • NL: BSN
  • SE: Personnummer، Samordningsnummer
  • ES: DNI، NIE، NIF، CIF
  • IT: Codice Fiscale، Partita IVA

فون فارمیٹس: ہر EU ملک کے منفرد پریفکس ڈھانچے ہیں۔ +49، +33، اور +48 میں سے ہر ایک کو اپنی تصدیق منطق چاہیے۔

ایڈریس فارمیٹس: پوسٹل کوڈز وسیع پیمانے پر مختلف ہیں۔ جرمن PLZ 5 ارقام استعمال کرتا ہے۔ فرانسیسی کوڈز 5 ارقام (01-99 رینج) استعمال کرتے ہیں۔ UK پوسٹ کوڈز الفا نیومیرک ہیں۔ ہسپانوی کوڈز 5 ارقام (01000-52999) استعمال کرتے ہیں۔

حقیقی دنیا کا معاملہ: سوئس فارما

ایک سوئس فرم ملازمت کے معاہدوں کو پروسیس کرتی ہے۔ ہر معاہدے میں جرمن، فرانسیسی، اور انگریزی ٹیکسٹ ملا ہوتا ہے۔ سوئٹزرلینڈ کی چار سرکاری زبانیں ہیں۔ ان کا ٹول صرف جرمن کے لیے ترتیب دیا گیا تھا۔ اس نے تمام فرانسیسی سیکشن PII کو چھوڑ دیا۔

جنیوا-بیسڈ ملازم کے لیے ایک معاہدے میں فرانسیسی AVS نمبر (13 ارقام)، سوئس بینک IBAN، اور فرانسیسی فارمیٹ میں نام شامل تھا۔ صرف جرمن ٹول نے فرانسیسی فارمیٹ کا نام چھوڑ دیا۔ یہ فرانسیسی AVS نمبر تلاش کرنے میں ناکام رہا۔ یہ IBAN کو صرف جزوی طور پر پکڑ سکا۔

تین-درجے کا اپروچ پوری دستاویز کو پروسیس کرتا ہے۔ یہ فی ٹیکسٹ سیگمنٹ لوکل کا پتہ لگاتا ہے۔ یہ ہر حصے کے لیے درست NER ماڈل لاگو کرتا ہے۔ یہ صحیح ملک منطق کے ساتھ ہر قومی ID کی تصدیق کرتا ہے۔

مخلوط-لوکل دستاویزات

سب سے مشکل معاملہ انٹرا-دستاویز لوکل مکسنگ ہے۔ مثالیں:

  • جرمن فرم کا انگریزی معاہدہ جرمن ملازم ریکارڈز کے ساتھ (نام، ٹیکس IDs)
  • انگریزی پرائیویسی اقتباس کے ساتھ فرانسیسی GDPR رضامندی فارم
  • چیٹ جہاں ایجنٹ انگریزی میں جواب دیتا ہے اور گاہک عربی میں لکھتا ہے

XLM-RoBERTa اسے مقامی طور پر ہینڈل کرتا ہے۔ اسے واضح لوکل فلیگز کی ضرورت نہیں ہے۔ یہ پیشگی سیگمنٹیشن کے بغیر مخلوط-لوکل ٹیکسٹ کو پروسیس کرتا ہے۔ اس سے وقت بچتا ہے۔ یہ غلط تقسیم سے ہونے والی غلطیوں کو بھی روکتا ہے۔

پروڈکشن استعمال کے لیے، آٹو لوکل ڈیٹیکشن (جملے کی سطح پر) کو XLM-RoBERTa انفرنس کے ساتھ جوڑنا مخلوط-لوکل دستاویزات کی مضبوط ہینڈلنگ دیتا ہے۔

عملی اقدامات

اپنے ٹول کی رسائی کا آڈٹ کریں۔ اپنے ریڈیکشن وینڈر سے اپنے مخصوص لوکلز کے لیے F1 اسکور مانگیں۔ "20 زبانوں کو سپورٹ کرتا ہے" اکثر مطلب ہوتا ہے کہ ٹول پہلے ٹیکسٹ کو مشینی ترجمے سے گزارتا ہے۔ یہ مقامی اسکیننگ نہیں ہے۔

اپنے ریکارڈز کو لوکلز سے میپ کریں۔ ایک ریکارڈز انوینٹری کریں جس میں لوکل تقسیم شامل ہو۔ 70% انگریزی، 20% جرمن، اور 10% فرانسیسی والی عالمی فرم کو مختلف خطرات کا سامنا ہے۔ 95% انگریزی والی مختلف پوزیشن میں ہے۔

قومی ID نمونوں کے ساتھ ٹیسٹ کریں۔ اپنی آپریشنز میں قومی IDs کی 10 مثالوں کے ساتھ ٹیسٹ سیٹ بنائیں — Steuer-ID، NIR، PESEL، BSN، اور دیگر۔ ڈیٹیکشن شرحوں کی تصدیق کریں۔ یہ مکمل F1 ٹیسٹ سے تیز ہے۔

اپنے DPIAs کا جائزہ لیں۔ چیک کریں کہ آیا لوکل دائرہ شامل ہے۔ صرف انگریزی ریکارڈز فرض کرنے والا نامکمل DPIA اپ ڈیٹ کی ضرورت ہو سکتی ہے۔ ابھی کارروائی کریں۔ آڈٹ کا انتظار نہ کریں۔

مکمل ادارہ قسم کی تعریفوں کے لیے اکائیوں کا حوالہ اور FAQ دیکھیں۔ پلانز اور API کال شرحوں کے لیے پرائسنگ دیکھیں۔


anonym.legal کا PII ڈیٹیکشن انجن تین-درجے کا کثیر لسانی اپروچ استعمال کرتا ہے۔ یہ مقامی spaCy ماڈلز کے ذریعے 25 اعلی-وسائل لوکلز کو کور کرتا ہے۔ Stanza اضافی لوکل رسائی شامل کرتا ہے۔ XLM-RoBERTa کراس-لنگوئل ٹرانسفارمرز دائرہ کو 48 لوکلز تک بڑھاتے ہیں۔ تمام EU رکن ممالک کے ملک-مخصوص ادارہ اقسام شامل ہیں۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.