Presidio کا 22.7% Precision کا مسئلہ
PII detection میں false positives سے حقیقی نقصان ہوتا ہے۔ جب آپ کا ٹول جو چیزیں "person names" کے طور پر flag کرتا ہے ان میں سے 77.3% اصل نام نہیں ہوتے، تو آپ پرائیویسی کی حفاظت نہیں کر رہے۔ آپ ڈیٹا تباہ کر رہے ہیں۔
ایک 2024 کے benchmark نے Microsoft Presidio کے default NER model کو کاروباری دستاویزات پر آزمایا۔ ٹیسٹ میں مالی رپورٹیں، customer letters، پروڈکٹ docs، اور support tickets شامل تھے۔ نتیجہ: name detection کے لیے 22.7% precision۔
یہ عدد حیران کن ہے۔ ہر 100 flagged items میں سے 23 اصل فردی نام ہیں۔ باقی 77 false positives ہیں — پروڈکٹ labels، brand terms، یا شہروں کے نام۔
چار میں سے تین detections غلط ہیں۔ کاروباری دستاویزات کے کام کے لیے یہ معمولی calibration مسئلہ نہیں ہے۔ یہ ایک ٹوٹا ہوا ٹول ہے۔
یہ کیوں ہوتا ہے
Presidio بطور ڈیفالٹ spaCy کا en_core_web_lg ماڈل استعمال کرتا ہے۔ یہ ماڈل خبری متن سے سیکھا۔ خبروں میں، زیادہ تر proper nouns اصل لوگ یا جگہیں ہیں۔
کاروباری دستاویزات مختلف ہیں۔
پروڈکٹ labels جو انفرادی ناموں جیسے لگتے ہیں۔ "Apple iPhone 15 Pro shipment records" کو PERSON کے طور پر flag کیا جاتا ہے۔ "Samsung Galaxy Tab" اور "Cisco Meraki deployment" بھی ایسا ہی ہوتا ہے۔
کمپنی کی اصطلاحات جن میں نام جیسے حصے ہیں۔ "Johnson Controls results" میں لفظ "Johnson" کو PERSON کے طور پر flag کیا جاتا ہے۔ "Goldman Sachs portfolio" بھی یہی غلطی کرتا ہے۔
مقام کے labels جو person detection کو trigger کرتے ہیں۔ "Victoria Harbour project" میں "Victoria" کو PERSON کے طور پر flag کیا جاتا ہے۔ "Santiago hub" بھی "Santiago" کو اسی طرح flag کرتا ہے۔
ماڈل میں "Apple" (کمپنی) اور "Apple Smith" (ایک شخص) میں فرق کرنے کی صلاحیت نہیں ہے۔ یہ خلا زیادہ تر false positives کی جڑ ہے۔ خبری متن نے اسے سکھایا کہ proper nouns کو لوگ یا جگہیں سمجھے۔ کاروباری متن اس اصول کو مسلسل توڑتا ہے۔
اثرات
ایک ڈیٹا فرم نے Presidio کو customer surveys شیئر کرنے سے پہلے صاف کرنے کے لیے استعمال کیا۔ ایک آڈٹ نے چار مسائل پائے۔ اول، 40% surveys میں پروڈکٹ labels غلط طریقے سے ہٹائے گئے۔ دوم، شہروں کے نام ہر جواب سے نکال دیے گئے۔ سوم، brand mentions تجزیاتی سیٹ سے مٹا دیے گئے۔ چہارم، مخصوص پروڈکٹس کے بارے میں sentiment نہیں پڑھا جا سکتا تھا۔
تجزیاتی ٹیم کو ایسا redacted متن ملا جس میں تمام پروڈکٹ حوالہ جات ہٹا دیے گئے تھے۔ survey اصل میں iPhone Pro اور Apple charger کا ذکر کر چکی تھی۔ وہ معنی چلے گئے تھے۔
فرم پرائیویسی کی بہتر حفاظت نہیں کر رہی تھی۔ وہ compliance فائدے کے بغیر ڈیٹا توڑ رہی تھی۔ آڈٹ کے بعد Presidio کو تبدیل کر دیا گیا۔
یہ جاننے کے لیے کہ detection quality آپ کی regulatory standing کو کیسے متاثر کرتی ہے، ہمارا compliance جائزہ دیکھیں۔
بہتر نقطہ نظر: Hybrid Detection
یہ مسئلہ صرف Presidio تک محدود نہیں ہے۔ context کے بغیر token-level NER میں ہمیشہ یہ مسئلہ رہے گا۔ حل context-aware detection ہے۔
Transformers کیوں مددگار ہیں: XLM-RoBERTa جیسا ماڈل پوری جملہ پڑھتا ہے۔ "Apple announced its earnings" → Apple ایک فرم ہے۔ "Apple Smith joined the team" → Apple ایک پہلا نام ہے۔ سیاق و سباق بتاتا ہے کہ کون سا کون ہے۔
یہ recall کو بلند رکھتے ہوئے precision بہتر کرتا ہے۔ نیچے موازنہ دیکھیں:
| نقطہ نظر | Precision | Recall |
|---|---|---|
| Presidio default NER | 22.7% | ~85% |
| Regex-only | ~95% | ~40% |
| Hybrid (Regex + NLP + Transformer) | ~85% | ~80% |
hybrid نقطہ نظر 85% precision تک پہنچتا ہے۔ یعنی 15% false positive rate۔ 77.3% سے کہیں بہتر۔ کاروباری دستاویزات کے لیے یہ فرق اہم ہے۔
hybrid stack چار مراحل پر مشتمل ہے:
-
Regex layer: structured IDs ڈھونڈتا ہے — emails، phone numbers، SSNs، IBANs۔ فارمیٹ مقرر ہیں، اس لیے false positives کم ہیں۔ یہ پہلے چلتا ہے۔
-
NLP layer (spaCy): لوگوں، فرموں، اور جگہوں کے لیے معیاری NER۔ زیادہ recall، کم precision۔
-
Transformer layer (XLM-RoBERTa): پوری جملے کے سیاق و سباق کا استعمال کرتے ہوئے ہر NLP نتیجے کو دوبارہ score کرتا ہے۔ پروڈکٹ سیاق و سباق میں "Apple" اپنا entity score کھو دیتا ہے۔ complaint متن میں "John" اسے حاصل کرتا ہے۔
-
Confidence threshold: صرف ایک مقررہ score سے اوپر کے hits آؤٹ پٹ تک پہنچتے ہیں۔ تجزیاتی use cases کے لیے threshold بڑھائیں۔ HIPAA de-identification کے لیے کم کریں۔
سوئچ کرنے کے بعد نتائج
tجزیاتی فرم نے hybrid detection پر سوئچ کیا۔ فوائد واضح تھے۔ پروڈکٹ label false positives 40% سے 3% تک گرے۔ شہر کے label false positives قریباً صفر ہو گئے۔ اصل identity recall ~82% پر رہی، 85% سے قدرے کم، لیکن precision کافی بہتر ہوئی۔
Surveys دوبارہ قابلِ استعمال ہو گئیں۔ "iPhone"، "Apple"، "Samsung"، اور "Chicago" متن میں باقی رہے۔ complaint سیاق و سباق میں customer کے نام صحیح طریقے سے ہٹا دیے گئے۔
hybrid detection زیادہ compute لیتی ہے۔ بڑے کاموں کے لیے، runtime تھوڑا لمبا ہوتا ہے۔ زیادہ تر کاروباری use cases کے لیے، accuracy کا فائدہ قابلِ قدر ہے۔ فرم دوبارہ تجزیہ کر سکتی تھی۔ survey data کا یہی مقصد تھا۔
ہمارے detection نقطہ نظر کے بارے میں security جائزے میں پڑھیں۔
جب زیادہ False Positive Rates قابلِ قبول ہوں
کچھ cases میں precision پر recall کو ترجیح دی جاتی ہے۔
HIPAA Safe Harbor: ایک true positive چھوٹنا خلاف ورزی ہے۔ 10% false positive rate ٹھیک ہے اگر اصل PHI کبھی نہ چھوٹے۔ زیادہ removal کم removal سے محفوظ ہے۔
قانونی جائزہ: ایک privileged contact چھوٹنا privilege ختم کر سکتا ہے۔ False positives کو جائزہ کی ضرورت ہوتی ہے لیکن ذمہ داری پیدا نہیں کرتے۔
کاروباری تجزیات: زیادہ removal compliance فائدے کے بغیر ڈیٹا توڑتی ہے۔ یہاں precision زیادہ اہم ہے۔ زیادہ confidence threshold کے ساتھ hybrid نقطہ نظر استعمال کریں۔ یہ brand labels اور شہر کی اصطلاحات آؤٹ پٹ میں رکھتا ہے۔ صرف اصل شخصی نام ہٹتے ہیں۔
صحیح توازن آپ کے use case پر منحصر ہے۔ جو ٹولز threshold مقرر کرنے دیتے ہیں وہ آپ کو کنٹرول دیتے ہیں۔ کوئی ایک default ہر سیاق و سباق کے لیے کام نہیں کرتا۔
thresholds اور detection modes کے بارے میں عام سوالات کے لیے ہمارا FAQ دیکھیں۔
نتیجہ
22.7% precision rate کا مطلب ہے کہ 4 میں سے 3 detections غلط ہیں۔ کاروباری دستاویزات کے لیے یہ آؤٹ پٹ کو تجزیے کے قابل نہیں رہنے دیتا۔ یہ compliance کے بارے میں جھوٹا اعتماد بھی دیتا ہے۔
hybrid detection یہ ٹھیک کرتی ہے۔ یہ regex، NLP، اور transformer scoring کو یکجا کرتی ہے۔ anonymization کے بعد ڈیٹا مفید رہتا ہے۔ اصل شخصی نام ہٹ جاتے ہیں۔ Brand labels، شہر کی اصطلاحات، اور پروڈکٹ شناخت کار باقی رہتے ہیں۔
اگر آپ نے false positive مسائل کی وجہ سے Presidio چھوڑا تھا، تو یہ آگے کا راستہ ہے۔ اسی ماڈل کی نئی config نہیں۔ کاروباری دستاویز سیاق و سباق کے لیے بنائی گئی مختلف architecture۔
ذرائع
Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.
Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.