2026 کے لیے اپ ڈیٹ شدہ

GDPR کی کوئی زبانی ترجیح نہیں ہے۔ آرٹیکل 4(1) "ذاتی ڈیٹا" کی تعریف اس زبان کا نام لیے بغیر کرتا ہے جس میں یہ ظاہر ہوتا ہے۔ جرمن Steuer-ID اتنی ہی محفوظ ہے جتنی US سوشل سیکیورٹی نمبر۔ فرانسیسی NIR اتنی ہی ریگولیٹڈ ہے جتنی UK نیشنل انشورنس نمبر۔

زیادہ تر PII ڈیٹیکشن ٹولز صرف انگریزی کے لیے بنائے گئے تھے۔

ACL 2024 کی تحقیق سے پتہ چلا کہ ہائبرڈ NLP ٹولز یورپی لوکلز کے لیے F1 اسکور 0.60-0.83 تک پہنچتے ہیں۔ صرف انگریزی ٹولز غیر انگریزی قومی ID فارمیٹس کے لیے صفر کے قریب اسکور کرتے ہیں۔ خلاء واضح ہے۔ ایک ٹول انگریزی PII کا 95% پکڑ سکتا ہے۔ پھر بھی یہ ایک ہی فائل میں جرمن، فرانسیسی، پولش، یا ڈچ PII کا 40-60% چھوڑ دیتا ہے۔ یہ ایک سنگین مسئلہ ہے۔ یہ کمپنیوں کو خطرے میں ڈالتا ہے۔

یہ ایک حقیقی GDPR خلاء ہے۔ یہ انگریزی-مرکز ریڈیکشن ٹولز استعمال کرنے والی تقریباً ہر عالمی فرم کو متاثر کرتا ہے۔ مزید کے لیے ہمارا GDPR گائیڈ دیکھیں۔

PII لوکل-مخصوص کیوں ہے

PII ڈیٹیکشن کے دو حصے ہیں۔

پہلا پیٹرن-بیسڈ اسکیننگ ہے۔ یہ ٹیکس نمبرز اور فون فارمیٹس جیسے ساختی IDs کو کور کرتا ہے۔

dوسرا NER-بیسڈ اسکیننگ ہے۔ یہ نام اور پتوں جیسی سیاق و سباق کی اکائیوں کو کور کرتا ہے۔

دونوں حصے لوکل پر منحصر ہیں۔

ساختی IDs ملک کے لحاظ سے مختلف ہیں

ملک	ٹیکس ID	فارمیٹ	تصدیق
جرمنی	Steuer-ID	11 ارقام	Modulo-11
فرانس	NIR	15 ارقام + 2 رقمی کلید	INSEE
سویڈن	Personnummer	10 ارقام	Luhn
پولینڈ	PESEL	11 ارقام	Modulo-10
نیدرلینڈز	BSN	9 ارقام	Elfproef
ہسپانیہ	DNI/NIE	8 ارقام + حرف	Modulo-23
اٹلی	Codice Fiscale	16 کریکٹر	کسٹم چیک سم

SSNs (NNN-NN-NNNN) کے لیے صرف انگریزی ریجیکس ان میں سے کسی فارمیٹ سے میل نہیں کھائے گا۔ ہر ایک کو اپنا ریجیکس چاہیے۔ ہر ایک کو اپنی چیک سم منطق بھی چاہیے۔

NER کو مقامی ماڈلز کی ضرورت ہے

جرمن نام انگریزی ناموں سے مختلف ہیں۔ "Hans-Dieter Müller" مقامی جرمن ماڈل کو واضح ہے۔ انگریزی-تربیت یافتہ ماڈل اکثر ایسے ناموں کو چھوڑ دیتا ہے۔

جھوٹے مثبت نتائج بھی ایک مسئلہ ہیں۔ Microsoft Presidio کا ایشو ٹریکر جرمن الفاظ کو انگریزی PII کے طور پر غلط درجہ بندی ہوتے دکھاتا ہے۔ لفظ "Null" (جرمن میں "صفر" کے لیے) ایک مثال ہے۔ یہ انگریزی-تربیت یافتہ ماڈلز میں جھوٹے نام ہٹس شروع کرتا ہے۔ پروڈکشن استعمال میں، ایرر ریٹ فی حقیقی ادارے 3 جھوٹے مثبت تک پہنچ جاتی ہے (Alvaro et al., 2024)۔

ریگولیٹری خطرہ

EU ڈیٹا ادارے اس مسئلے سے آگاہ ہیں۔ متعدد قومی DPAs نے رہنمائی جاری کی ہے۔

جرمن BfDI: GDPR آرٹیکل 5(1)(f) تمام ریکارڈز پر لاگو ہوتا ہے۔ یہ تھرڈ-پارٹی ٹولز کے ذریعے پروسیس کیے گئے غیر انگریزی ڈیٹا کو کور کرتا ہے۔

فرانسیسی CNIL: 2024 CNIL سالانہ رپورٹ نے تشویش اٹھائی۔ اس نے ایسے AI ٹولز کو نشان زد کیا جو فرانسیسی-لوکل PII اسکیننگ کے بغیر فرانسیسی ریکارڈز ہینڈل کرتے ہیں۔

EU DPAs وسیع طور پر: GDPR آرٹیکل 25 (پرائیویسی بائی ڈیزائن) ایسے حفاظتی اقدامات کی ضرورت ہے جو پروسیس کیے جا رہے حقیقی ریکارڈز کے لیے موزوں ہوں۔ اس میں عالمی تعیناتیوں میں غیر انگریزی PII شامل ہے۔

خطرہ واضح ہے۔ ایک فرم GDPR آڈٹ میں انگریزی مواد پر 95% PII ڈیٹیکشن دکھا سکتی ہے۔ لیکن اگر یہ ایک ہی ٹول سے جرمن، فرانسیسی، اور پولش ریکارڈز بھی ہینڈل کرتی ہے تو خلاء ظاہر ہوں گے۔ آڈیٹرز نوٹس کرتے ہیں۔ جرمانے آ سکتے ہیں۔ ہم اس سے کیسے نمٹتے ہیں اس کے لیے ہمارا سیف گارڈز پیج دیکھیں۔

تین-درجے کا ڈیزائن

تحقیق اور پروڈکشن تین-درجے کے ہائبرڈ ڈیزائن کو بہترین اپروچ کے طور پر متفق ہیں۔

درجہ 1: مقامی spaCy ماڈلز

spaCy 25 لوکلز کے لیے تربیت یافتہ ماڈلز فراہم کرتا ہے۔ ان میں جرمن، فرانسیسی، ہسپانوی، پرتگالی، اطالوی، ڈچ، روسی، چینی، جاپانی، کورین، اور پولش شامل ہیں۔ ہر ماڈل مقامی متن پر تربیت دیتا ہے۔ وہ ہر لوکل کے نحوی اور ادارہ کے پیٹرن سیکھتے ہیں۔ یہ اہمیت رکھتا ہے۔ مقامی تربیت کا مطلب بہتر یاد اور کم جھوٹے مثبت ہے۔

جرمن کے لیے: de_core_news_lg مرکب اسماء اور جرمن نام کے پیٹرن ہینڈل کرتا ہے۔ فرانسیسی کے لیے: fr_core_news_lg فرانسیسی اکائیاں، عنوانات، جگہوں کے نام، اور تنظیمیں ہینڈل کرتا ہے۔

مقامی ماڈلز اعلی-وسائل لوکلز کے لیے نام اسکیننگ میں کراس-لنگوئل ماڈلز کو پیچھے چھوڑتے ہیں۔

درجہ 2: زیادہ لوکلز کے لیے Stanza

Stanford کی Stanza لائبریری ان لوکلز کو کور کرتی ہے جو spaCy میں نہیں ہیں۔ ان میں کروشین، سلووینین، اور یوکرینی شامل ہیں۔ یہ EU اسپیکر گروپس کے لیے رسائی بڑھاتا ہے جن کی spaCy خدمت نہیں کرتا۔ Stanza مفت اور اوپن سورس ہے۔ یہ بقیہ اسٹیک کے ساتھ اچھی طرح ضم ہوتا ہے۔

درجہ 3: وسیع رسائی کے لیے XLM-RoBERTa

ان لوکلز کے لیے جہاں spaCy اور Stanza میں NER ماڈلز کی کمی ہے، XLM-RoBERTa خلاء پُر کرتا ہے۔ یہ 100 لوکلز میں Common Crawl ٹیکسٹ پر تربیت لیتا ہے۔ یہ PII ڈیٹیکشن کے لیے 91.4% کراس-لنگوئل F1 حاصل کرتا ہے (HuggingFace 2024)۔ یہ کوڈ-سوئچنگ کو اچھی طرح ہینڈل کرتا ہے۔ یہ ایک اہم خصوصیت ہے۔ یہ اس وقت اہمیت رکھتی ہے جب ایک دستاویز میں کئی لوکلز میں ٹیکسٹ ہو۔

APIی کالز کثیر لسانی والیوم کے ساتھ کیسے اسکیل ہوتی ہیں یہ دیکھنے کے لیے ہمارے ٹوکن سسٹم دستاویزات دیکھیں۔

لوکل-مخصوص ادارہ اقسام

صرف ماڈلز کافی نہیں ہیں۔ GDPR الائنمنٹ کے لیے ملک-مخصوص IDs کے لیے ادارہ قسم کا دائرہ بھی درکار ہے۔

ملک کے لحاظ سے EU قومی IDs:

DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
FR: NIR، SIREN، SIRET
PL: PESEL، NIP، REGON
NL: BSN
SE: Personnummer، Samordningsnummer
ES: DNI، NIE، NIF، CIF
IT: Codice Fiscale، Partita IVA

فون فارمیٹس: ہر EU ملک کے منفرد پریفکس ڈھانچے ہیں۔ +49، +33، اور +48 میں سے ہر ایک کو اپنی تصدیق منطق چاہیے۔

ایڈریس فارمیٹس: پوسٹل کوڈز وسیع پیمانے پر مختلف ہیں۔ جرمن PLZ 5 ارقام استعمال کرتا ہے۔ فرانسیسی کوڈز 5 ارقام (01-99 رینج) استعمال کرتے ہیں۔ UK پوسٹ کوڈز الفا نیومیرک ہیں۔ ہسپانوی کوڈز 5 ارقام (01000-52999) استعمال کرتے ہیں۔

حقیقی دنیا کا معاملہ: سوئس فارما

ایک سوئس فرم ملازمت کے معاہدوں کو پروسیس کرتی ہے۔ ہر معاہدے میں جرمن، فرانسیسی، اور انگریزی ٹیکسٹ ملا ہوتا ہے۔ سوئٹزرلینڈ کی چار سرکاری زبانیں ہیں۔ ان کا ٹول صرف جرمن کے لیے ترتیب دیا گیا تھا۔ اس نے تمام فرانسیسی سیکشن PII کو چھوڑ دیا۔

جنیوا-بیسڈ ملازم کے لیے ایک معاہدے میں فرانسیسی AVS نمبر (13 ارقام)، سوئس بینک IBAN، اور فرانسیسی فارمیٹ میں نام شامل تھا۔ صرف جرمن ٹول نے فرانسیسی فارمیٹ کا نام چھوڑ دیا۔ یہ فرانسیسی AVS نمبر تلاش کرنے میں ناکام رہا۔ یہ IBAN کو صرف جزوی طور پر پکڑ سکا۔

تین-درجے کا اپروچ پوری دستاویز کو پروسیس کرتا ہے۔ یہ فی ٹیکسٹ سیگمنٹ لوکل کا پتہ لگاتا ہے۔ یہ ہر حصے کے لیے درست NER ماڈل لاگو کرتا ہے۔ یہ صحیح ملک منطق کے ساتھ ہر قومی ID کی تصدیق کرتا ہے۔

مخلوط-لوکل دستاویزات

سب سے مشکل معاملہ انٹرا-دستاویز لوکل مکسنگ ہے۔ مثالیں:

جرمن فرم کا انگریزی معاہدہ جرمن ملازم ریکارڈز کے ساتھ (نام، ٹیکس IDs)
انگریزی پرائیویسی اقتباس کے ساتھ فرانسیسی GDPR رضامندی فارم
چیٹ جہاں ایجنٹ انگریزی میں جواب دیتا ہے اور گاہک عربی میں لکھتا ہے

XLM-RoBERTa اسے مقامی طور پر ہینڈل کرتا ہے۔ اسے واضح لوکل فلیگز کی ضرورت نہیں ہے۔ یہ پیشگی سیگمنٹیشن کے بغیر مخلوط-لوکل ٹیکسٹ کو پروسیس کرتا ہے۔ اس سے وقت بچتا ہے۔ یہ غلط تقسیم سے ہونے والی غلطیوں کو بھی روکتا ہے۔

پروڈکشن استعمال کے لیے، آٹو لوکل ڈیٹیکشن (جملے کی سطح پر) کو XLM-RoBERTa انفرنس کے ساتھ جوڑنا مخلوط-لوکل دستاویزات کی مضبوط ہینڈلنگ دیتا ہے۔

عملی اقدامات

اپنے ٹول کی رسائی کا آڈٹ کریں۔ اپنے ریڈیکشن وینڈر سے اپنے مخصوص لوکلز کے لیے F1 اسکور مانگیں۔ "20 زبانوں کو سپورٹ کرتا ہے" اکثر مطلب ہوتا ہے کہ ٹول پہلے ٹیکسٹ کو مشینی ترجمے سے گزارتا ہے۔ یہ مقامی اسکیننگ نہیں ہے۔

اپنے ریکارڈز کو لوکلز سے میپ کریں۔ ایک ریکارڈز انوینٹری کریں جس میں لوکل تقسیم شامل ہو۔ 70% انگریزی، 20% جرمن، اور 10% فرانسیسی والی عالمی فرم کو مختلف خطرات کا سامنا ہے۔ 95% انگریزی والی مختلف پوزیشن میں ہے۔

قومی ID نمونوں کے ساتھ ٹیسٹ کریں۔ اپنی آپریشنز میں قومی IDs کی 10 مثالوں کے ساتھ ٹیسٹ سیٹ بنائیں — Steuer-ID، NIR، PESEL، BSN، اور دیگر۔ ڈیٹیکشن شرحوں کی تصدیق کریں۔ یہ مکمل F1 ٹیسٹ سے تیز ہے۔

اپنے DPIAs کا جائزہ لیں۔ چیک کریں کہ آیا لوکل دائرہ شامل ہے۔ صرف انگریزی ریکارڈز فرض کرنے والا نامکمل DPIA اپ ڈیٹ کی ضرورت ہو سکتی ہے۔ ابھی کارروائی کریں۔ آڈٹ کا انتظار نہ کریں۔

مکمل ادارہ قسم کی تعریفوں کے لیے اکائیوں کا حوالہ اور FAQ دیکھیں۔ پلانز اور API کال شرحوں کے لیے پرائسنگ دیکھیں۔

anonym.legal کا PII ڈیٹیکشن انجن تین-درجے کا کثیر لسانی اپروچ استعمال کرتا ہے۔ یہ مقامی spaCy ماڈلز کے ذریعے 25 اعلی-وسائل لوکلز کو کور کرتا ہے۔ Stanza اضافی لوکل رسائی شامل کرتا ہے۔ XLM-RoBERTa کراس-لنگوئل ٹرانسفارمرز دائرہ کو 48 لوکلز تک بڑھاتے ہیں۔ تمام EU رکن ممالک کے ملک-مخصوص ادارہ اقسام شامل ہیں۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

مفت آزمائش شروع کریں خصوصیات دیکھیں

GDPR کے لیے کثیر لسانی PII کا پتہ لگانا