PII ڈیٹیکشن ٹولز پر غلط مثبت ٹیکس
2026 کے لیے اپ ڈیٹ کیا گیا
زیادہ تر PII ٹولز کو ریکال پر پرکھا جاتا ہے۔ ریکال اس بات کو ماپتا ہے کہ ٹول اصل PII کا کتنا حصہ ڈھونڈتا ہے۔ لیکن درستگی بھی اتنی ہی اہم ہے۔ درستگی یہ ماپتی ہے کہ ٹول کے الرٹس میں سے کتنا حصہ اصل PII ہے۔
کم درستگی مہنگی ہے۔ 95% ریکال اور 22.7% درستگی والا سسٹم زیادہ تر PII پکڑتا ہے۔ پھر بھی ہر اصل PII ہستی کے لیے جسے یہ نشان زد کرتا ہے، یہ 3.4 غلط الرٹس بھی بلند کرتا ہے۔ 10,000 اصل PII ہستیوں والے ڈیٹاسیٹ میں، وہ سسٹم تقریباً 44,000 الرٹس داغتا ہے۔ ان میں سے تقریباً 34,000 غلط ہیں۔ ہر ایک کو جائزہ لینے میں وقت لگتا ہے یا ضرورت سے زیادہ ریڈیکشن کا سبب بنتا ہے۔
یہ غلط مثبت ٹیکس ہے۔ یہ وہ اوورہیڈ ہے جو کوئی بھی ٹیم بڑے پیمانے پر ہائی ریکال، لو پریسیژن PII سسٹم چلاتے وقت ادا کرتی ہے۔ براہ راست لاگت جائزہ کار کا وقت ہے۔ بالواسطہ لاگت اس سے بھی بری ہے: ضرورت سے زیادہ ریڈیکٹ کی گئی دستاویزات مفید ڈیٹا چھپاتی ہیں، کام سست کرتی ہیں، اور ٹول پر اعتماد کمزور کرتی ہیں۔
Presidio مسئلہ #1071 کیا ظاہر کرتا ہے
Microsoft Presidio GitHub بحث #1071 (2024) ایک مخصوص پیٹرن ریکارڈ کرتی ہے۔ TFN (ٹیکس فائل نمبر) اور PCI ریکگنائزر چیکسم تصدیق استعمال کرتے ہیں۔ چیکسم پاس کرنے والے نمبر 1.0 کا اسکور پاتے ہیں — زیادہ سے زیادہ اعتماد۔ کوئی PII سیاق و سباق درکار نہیں۔
بنیادی وجہ: سیاق و سباق کے الفاظ کی جانچ چیکسم قدم کے بعد چلتی ہے، پہلے نہیں۔ چیکسم پاس کرنے والا نمبر آس پاس کے متن سے قطع نظر سب سے زیادہ اسکور پاتا ہے۔ مالیاتی اسپریڈ شیٹس، سائنسی ڈیٹاسیٹس، یا لاگ فائلوں میں، یہ آؤٹ پٹ کو غلط الرٹس سے بھر دیتا ہے۔ اسکور تھریشولڈ فلٹرنگ اسے ٹھیک نہیں کر سکتی۔ اسکور پہلے سے زیادہ سے زیادہ ہیں۔
Presidio مسئلہ #999 میں ایک دوسرا پیٹرن ظاہر ہوتا ہے۔ جرمن لفظ سیگمنٹیشن مرکب اسموں کے لیے ٹوٹ جاتی ہے۔ Bundesbehörde (وفاقی اتھارٹی) جیسے الفاظ غلط طریقے سے تقسیم کیے جا سکتے ہیں اور ذاتی نام کے طور پر ٹیگ کیے جا سکتے ہیں۔ یہ کسی بھی جرمن زبان کی دستاویز میں شور جوڑتا ہے۔
22.7% درستگی کا مسئلہ
Alvaro وغیرہ (2024) نے ملی جلی زبان کے انٹرپرائز ڈیٹاسیٹس پر Presidio کو آزمایا۔ انہوں نے 22.7% درستگی پائی۔ اصل دستاویزات میں، ہر چار Presidio الرٹس میں سے ایک سے بھی کم اصل PII ہستی ہے۔ یہ اس سے میل کھاتا ہے جو پریکٹیشنر رپورٹ کرتے ہیں۔ صرف ریکال کے لیے ٹیون کیا گیا ٹول پروڈکشن استعمال کے لیے بہت زیادہ شور پیدا کرتا ہے۔
2024 DICOM مطالعے نے دکھایا کہ score_threshold کو 0.7 تک بڑھانا پھر بھی 39 میں سے 38 طبی تصویروں میں غلط الرٹس چھوڑ گیا۔ ایک ڈاکیومنٹ کی قسم میں شور صاف کرنے والی تھریشولڈ دوسری میں چھوٹنے کو بڑھاتی ہے۔
یہ صرف Presidio کا مسئلہ نہیں ہے۔ کوئی بھی مقررہ تھریشولڈ تجارت کو مجبور کرتی ہے۔ ہائی تھریشولڈ شور کم کرتی ہے لیکن چھوٹنے بڑھاتی ہے۔ لو تھریشولڈ ریکال بڑھاتی ہے لیکن الرٹ کی تعداد پھلاتی ہے۔
سیاق و سباق سے واقف اسکورنگ
حل سیاق و سباق سے واقف اعتماد اسکورنگ ہے۔ صرف پیٹرن میچ پر اسکورنگ کرنے کے بجائے، سسٹم اعتماد بڑھاتا ہے جب میچ کے قریب سیاق و سباق کے الفاظ ظاہر ہوتے ہیں۔ یہ اسکور کو کم بھی کرتا ہے جب سیاق و سباق غیر حاضر ہو۔
TFN ڈیٹیکشن کے لیے: "tax file number"، "TFN"، یا "Australian tax" جیسے الفاظ نمبر کے قریب اس کا اسکور بڑھاتے ہیں۔ جو نمبر چیکسم پاس کرتا ہے لیکن آس پاس سیاق و سباق کے الفاظ نہیں رکھتا وہ جائزہ تھریشولڈ سے نیچے اسکور کرتا ہے۔ جھوٹا الرٹ دبا دیا جاتا ہے۔
کراس لسانی شور کے لیے: مخصوص ملکوں سے منسلک ہستی اقسام کو میچ کرنے والی زبان کی دستاویزات تک محدود کیا جا سکتا ہے۔ انگریزی اور آسٹریلین انگریزی متن تک محدود TFN ڈیٹیکٹر شور ہٹاتا ہے۔ اسکوپنگ کے بغیر اسے جرمن مواد پر چلانا ہی مسئلے کی جڑ ہے۔
ہائبرڈ سسٹم کی تیسری تہہ ایک ٹرانسفارمر ماڈل ہے۔ یہ ہر امیدوار کے ارد گرد پورا سیاق و سباق ونڈو پڑھتا ہے۔ یہ "John Smith، Patient ID 12345" کو ایک پروڈکٹ کوڈ سے الگ کرتا ہے جو نام پیٹرن سے میل کھاتا ہے۔ سیاق و سباق اس ابہام کو حل کرتا ہے جو regex اور چیکسم نہیں کر سکتے۔
دیکھیں کیسے تین تہوں کا ڈیٹیکشن انجن بڑے پیمانے پر درستگی سنبھالتا ہے۔ کثیر لسانی PII ڈیٹیکشن گائیڈ GDPR تعمیل پر کراس لسانی شور کے اثر کا احاطہ کرتی ہے۔
عملی اقدامات
کوئی بھی PII ٹول تعینات کرنے سے پہلے، اس کی درستگی ماپیں — صرف ریکال نہیں۔
ٹول کو معلوم PII اور معلوم غیر PII والے دستاویز سیٹ پر چلائیں۔ دونوں گروپوں میں الرٹس گنیں۔ true_positives / (true_positives + false_positives) حساب کریں۔ یہ نمبر rollout کا عہد کرنے سے پہلے جائزہ کا بوجھ ظاہر کرتا ہے۔
Predio استعمال کرنے والی ٹیموں کے لیے، اسکور تقسیم کا تجزیہ ایک تیز راستہ ہے۔ ان کے اعتماد اسکور کے ساتھ ڈیٹیکشن کا نمونہ برآمد کریں۔ گنیں کتنے 0.6، 0.7، اور 0.8 سے نیچے اسکور کرتے ہیں۔ صاف متن میں ہائی اسکور الرٹس کا بڑا حصہ سیاق و سباق کے خلا کی نشاندہی کرتا ہے، تھریشولڈ کے مسئلے کی نہیں۔ سیکیورٹی تعمیل کا جائزہ بیان کرتا ہے کہ DPIA میں اسے کیسے دستاویز کیا جائے۔
ذرائع
- Microsoft Presidio GitHub بحث #1071: منظم غلط مثبت۔
- Microsoft Presidio GitHub مسئلہ #999: جرمن زبان کے غلط مثبت پیٹرن۔
- Alvaro وغیرہ (2024): ملی جلی زبان کے انٹرپرائز ڈیٹاسیٹس پر Presidio کی درستگی۔
- DICOM اسکور تھریشولڈ تجزیہ — Microsoft Presidio کمیونٹی۔