صرف انگریزی PII ٹولز: GDPR کا خلا
GDPR کی کوئی زبانی ترجیح نہیں
GDPR کسی بھی زبان میں ذاتی ڈیٹا کو ڈھانپتا ہے۔ جرمن، فرانسیسی، پولش، سویڈش — سب یکساں طور پر ڈھانپے گئے ہیں۔ ایک چھوٹی گئی Steuer-ID امریکی سوشل سیکیورٹی نمبر کی طرح ہی قانونی خطرہ پیدا کرتی ہے۔ قانون زبان کی پرواہ نہیں کرتا۔
زیادہ تر PII ڈیٹیکشن ٹول کرتے ہیں۔
سرکردہ تجارتی اور اوپن سورس ٹول انگریزی متن کے لیے بنائے گئے ہیں۔ ان کے ادارہ شناخت کار اسی کی عکاسی کرتے ہیں۔ یہ امریکی سوشل سیکیورٹی نمبرز، امریکی ڈرائیونگ لائسنس اور NANP فون فارمیٹس کو اچھی طرح ڈھانپتے ہیں۔ غیر انگریزی قومی IDs کے شناخت کار کم درست ہیں۔ ان کی کم دیکھ بھال ہوتی ہے۔ یہ حقیقی شناخت کاروں کو زیادہ کثرت سے چھوڑ دیتے ہیں۔
EU رکن ریاستوں میں فرموں کے لیے، یہ کوریج کا خلا پیدا کرتا ہے۔ ٹول کہتا ہے کہ ڈیٹیکشن مکمل ہے۔ لیکن غیر انگریزی شناخت کار ڈیٹا میں باقی رہتے ہیں۔ یہ اکثر وہ شناخت کار ہوتے ہیں جو بعض ممالک میں سب سے زیادہ GDPR خطرہ رکھتے ہیں۔
ڈیٹا حکام یہ دیکھتے ہیں۔ آڈیٹر اسے تلاش کرتے ہیں۔ ایک ٹول انگریزی ریکارڈ پر اچھا کام کر سکتا ہے۔ لیکن اگر یہ جرمن یا فرانسیسی ریکارڈ پر ناکام رہتا ہے، تو یہ تطابق میں نہیں ہے۔ صاف رپورٹ اسے نہیں بدلتی۔
قومی IDs کی ساخت مختلف ہوتی ہے
انگریزی مرکوز اور کثیر لسانی ٹولز کے درمیان خلا صرف مزید ریجیکس پیٹرن شامل کرنے کا معاملہ نہیں ہے۔ EU قومی شناخت کار ایک دوسرے سے بہت مختلف ہیں۔ انہیں درست شناخت کے لیے ملک مخصوص منطق چاہیے۔
جرمن Steuer-Identifikationsnummer (Steuer-ID): 11 ہندسے۔ یہ Luhn فارمولا کی ایک قسم پر مبنی چیکسم استعمال کرتا ہے۔ عام SSN ریجیکس اسے میچ نہیں کرے گا۔ کسی بھی 11 ہندسے کے نمبر کا ریجیکس جرمن دستاویزات میں بہت زیادہ غلط مثبتیں پیدا کرتا ہے۔
فرانسیسی NIR (Numéro d'inscription au répertoire): 15 ہندسے۔ فارمیٹ جنس، پیدائش کا سال، پیدائش کا مہینہ، اور پیدائش کا محکمہ کوڈ کرتا ہے۔ اس میں پیدائشی ترتیب اور ایک 2 ہندسوں کی کنٹرول کلید بھی شامل ہے۔ درست شناخت کے لیے کنٹرول کلید کی تصدیق ضروری ہے۔
سویڈش Personnummer: Luhn چیک ڈیجٹ کے ساتھ 10 ہندسے۔ 1990 سے پہلے پیدا ہونے والے لوگ - کی بجائے + سپریٹر استعمال کرتے ہیں۔ اس سے وہ فارمیٹ بدل جاتا ہے جسے شناخت کرنا ضروری ہے۔
پولش PESEL: 11 ہندسے۔ یہ پیدائش کی تاریخ، جنس، اور وزنی مجموع پر مبنی چیک ڈیجٹ کوڈ کرتا ہے۔ درست شناخت کے لیے فارمیٹ میچنگ اور چیکسم تصدیق دونوں ضروری ہیں۔
یہ ایک مشترک نمونے کی قسمیں نہیں ہیں۔ ہر ایک کی لمبائی مختلف ہے۔ ہر ایک مختلف جانچ کا طریقہ استعمال کرتا ہے۔ ہر ایک مختلف پوزیشن اسکیم میں ڈیٹا کوڈ کرتا ہے۔ انگریزی پر تربیت یافتہ NER ماڈل جو فرانسیسی NIR دیکھتا ہے وہ اسے قومی شناخت کار کے طور پر نہیں پہچانے گا۔ یہ اسے نظرانداز کرے گا یا غلط درجہ بندی کرے گا۔
عملی تطابق کا خطرہ
ایک یورپی BPO میں ایک تطابق افسر پر غور کریں۔ وہ ایک ساتھ جرمنی، فرانس، پولینڈ اور نیدرلینڈز کا ڈیٹا پروسیس کرتے ہیں۔ ان کا ٹول کامیاب PII گمنامی کی رپورٹ کرتا ہے۔
لیکن نتیجہ مکمل نہیں ہے۔ جرمن ریکارڈ میں Steuer-IDs باقی ہیں۔ فرانسیسی ریکارڈ میں NIR نمبر باقی ہیں۔ پولش ریکارڈ میں PESEL نمبر باقی ہیں۔ ان فارمیٹس کے لیے ٹول کے شناخت کار غائب یا بہت غیر درست ہیں۔
بعد میں، ڈیٹاسیٹ تجزیاتی یا تحقیقی شراکت دار کے پاس جاتا ہے۔ ڈیٹا میں ابھی بھی قومی شناخت کار موجود ہیں جن سے دوبارہ شناخت ممکن ہے۔ GDPR کا مسئلہ ٹول کے آؤٹ پٹ لاگز میں ظاہر نہیں ہوتا۔ یہ اس وقت سامنے آتا ہے جب ڈیٹا موضوع رسائی کی درخواست آتی ہے۔ یہ ڈیٹا اتھارٹی آڈٹ کے دوران سامنے آ سکتا ہے۔ یہ ڈیٹا خلاف ورزی کے بعد سامنے آ سکتا ہے۔
انگریزی مرکوز ٹولز کے مقابلے میں ہائبرڈ کثیر لسانی نقطہ نظر کا موازنہ کرنے والی تحقیق نے واضح نتائج پائے۔ ہائبرڈ طریقے یورپی مقامات پر F1 اسکور 0.60 سے 0.83 حاصل کرتے ہیں۔ صرف انگریزی ٹولز غیر انگریزی قومی ID فارمیٹس کے لیے صفر کے قریب اسکور کرتے ہیں۔
یہ خلاء GDPR ذمہ داریوں سے کیسے جڑتا ہے اس کے لیے ہمارا GDPR تطابق جائزہ دیکھیں۔
مکمل کوریج کے لیے کیا ضروری ہے
EU GDPR تطابق کے لیے حقیقی کثیر لسانی PII ڈیٹیکشن کے تین تہوں کی ضرورت ہے۔
زبان مقامی spaCy ماڈل متن کی زبان میں معنوی سمجھ فراہم کرتے ہیں۔ جرمن متن پر تربیت یافتہ ماڈل جانتا ہے کہ "Müller" ایک عام جرمن کنیت ہے۔ 25 اعلی وسائل EU زبانوں کے لیے ماڈل موجود ہیں۔
Stanza NLP ماڈل spaCy میں نہ ہونے والی زبانوں تک کوریج بڑھاتے ہیں۔ یہ مزید EU زبان برادریوں کے لیے رسائی بڑھاتا ہے۔
کراس لسانی ٹرانسفارمر ماڈل (XLM-RoBERTa) کراس لینگویج کیسز کو سنبھالتے ہیں۔ فرانسیسی جملے میں ایک نام ایک شخص کے نام کے طور پر پہچانا جاتا ہے۔ یہ اس وقت بھی کام کرتا ہے جب انجن کو اس مخصوص نام پر تربیت نہیں دی گئی۔
ملک مخصوص تصدیق کے ساتھ ریجیکس ساختی قومی شناخت کاروں کو ڈھانپتا ہے۔ Steuer-ID، NIR، PESEL، اور Personnummer ہر ایک کو اپنی چیکسم منطق چاہیے۔ یہ غلط مثبتیں کم کرتا ہے۔ ہندسوں کی ترتیبیں جو ملک تصدیق کے اصولوں میں ناکام رہتی ہیں فلٹر ہو جاتی ہیں۔
خلاء ساختی ہے۔ لفظ فہرستیں شامل کرنا یا مزید ریجیکس پیٹرن صرف معمولی بہتری دیتے ہیں۔ EU شناخت کار کوریج شروع سے بنانا ہی واحد قابل اعتماد نقطہ نظر ہے۔
اپنا موجودہ ٹول جانچیں
اپنے وینڈر سے جرمن، فرانسیسی، پولش اور ڈچ ریکارڈ پر F1 اسکور مانگیں۔ "متعدد زبانوں کو سپورٹ کرتا ہے" کا اکثر مطلب یہ ہوتا ہے کہ ٹول پہلے ترجمہ کرتا ہے۔ یہ مقامی اسکیننگ نہیں ہے۔ GDPR تطابق کے لیے مقامی اسکیننگ ضروری ہے۔
حقیقی قومی ID نمونوں سے جانچیں۔ اپنی کارروائیوں میں ہر ID قسم کی 10 مثالوں کا ایک مختصر ٹیسٹ سیٹ بنائیں: Steuer-ID، NIR، PESEL، Personnummer۔ ڈیٹیکشن شرحیں جانچیں۔ یہ مکمل F1 ٹیسٹ سے تیز ہے اور خلاء جلدی دکھاتا ہے۔
ہمارا سیکیورٹی اور تطابق کا صفحہ دیکھیں کہ anonym.legal ان ضروریات کو کیسے پورا کرتا ہے۔ ادارے کی قسم کی تعریفوں کے لیے ادارے کا حوالہ دیکھیں۔