2026 کے لیے اپ ڈیٹ شدہ
22.7% درستگی کا مسئلہ
2024 کی ایک تحقیق نے کاروباری فائلوں پر Microsoft Presidio کو جانچا۔ Presidio ایک اوپن سورس PII ٹول ہے۔ قانونی ٹیمیں اور صحت گروپ اسے وسیع پیمانے پر استعمال کرتے ہیں۔
تحقیق نے ناپا کہ Presidio کتنی بار درست تھا۔ ان تمام چیزوں میں سے جنہیں اس نے شخصی ناموں کے طور پر نشان زد کیا، اصل میں کتنے شخصی نام تھے؟
جواب تھا 22.7%۔ ہر 100 نشانوں میں سے تقریباً 77 غلط تھے۔ تحقیق نے 4,434 نمونہ فائلوں میں 13,536 غلط نشان گنے۔
غلطیاں بے ترتیب نہیں تھیں۔ انہوں نے واضح نمونوں کی پیروی کی:
- جملے کے آغاز میں ضمیروں کو لوگوں کے طور پر نشان زد کیا (جملے کے شروع میں "I")
- بحری جہازوں کے لیبل کو لوگوں کے طور پر نشان زد کیا ("ASL Scorpio")
- کمپنی لیبل کو لوگوں کے طور پر نشان زد کیا ("Deloitte & Touche")
- ملکی اصطلاحات کو لوگوں کے طور پر نشان زد کیا ("Argentina," "Singapore")
یہ کوئی نادر غیر معمولی معاملے نہیں ہیں۔ یہ اس وقت ظاہر ہوتے ہیں جب عام NLP ماڈل ڈومین مخصوص متن سے ملتا ہے۔ ماڈل انہیں الگ کرنے کے لیے نہیں بنایا گیا تھا۔
غلط نشانوں کی لاگت
قانونی اور صحت کے کام میں، ہر نشان کا جواب ضروری ہے۔ ٹیموں کے پاس تین اختیارات ہیں۔ تینوں کی حقیقی لاگتیں ہیں۔
اختیار 1: ہر نشان کو انسان جانچے۔ وکیل اور ماہر کا وقت فی گھنٹہ $200 سے $800 ہے۔ 22.7% درستگی پر، حجم بہت بڑا ہے۔ یہ پیمانے پر قابل عمل نہیں ہے۔ جائزے کی لاگتیں حجم کے ساتھ کیسے بڑھتی ہیں اس کے لیے eDiscovery PII آٹومیشن اور قانونی جائزے کی لاگت میں کمی دیکھیں۔
اختیار 2: جائزہ چھوڑیں اور آؤٹ پٹ پر بھروسہ کریں۔ یہ بھی خطرناک ہے۔ جب 77% "تدون شدہ" چیزیں حساس نہیں ہیں، تو آپ قانونی خطرہ پیدا کرتے ہیں۔ عدالتوں نے حد سے زیادہ تدوین کے لیے وکیلوں پر جرمانے کیے ہیں۔ دستاویز شدہ معاملات کے لیے eDiscovery حد سے زیادہ تدوین کی پابندیاں دیکھیں۔
اختیار 3: اسکور کی حد بڑھائیں۔ Presidio صارفین کو کمزور نشانوں کو چھوڑنے کے لیے score_threshold ترتیب دینے دیتا ہے۔ ایک 2024 DICOM تحقیق نے اسے 0.7 پر جانچا — کافی اونچی حد۔ نتیجہ: 39 میں سے 38 DICOM تصاویر میں ابھی بھی غلط نشان تھے۔ حدیں مدد کرتی ہیں۔ یہ بنیادی وجہ ٹھیک نہیں کرتیں۔
عام NLP یہاں کیوں مشکل میں پڑتا ہے
Presidio کی کمی تربیتی ڈیٹا اور حقیقی دنیا کے استعمال کے درمیان غیر میل سے آتی ہے۔
قانونی فائلیں بڑے حرف کی اصطلاحات سے بھری ہوتی ہیں۔ کیس کے نام، قانون کے عنوانات، اور نمائش کے کوڈ سب عام ماڈل کو ذاتی ڈیٹا جیسے لگتے ہیں۔ یہ انہیں نشان زد کرتا ہے۔ زیادہ تر ذاتی ڈیٹا نہیں ہیں۔
صحت کی فائلیں دوائی کے نام، آلے کے کوڈ، اور کلینیکل مختصر اشکال شامل کرتی ہیں۔ "Pt." کا مطلب مریض ہے۔ "Dr." کا مطلب ڈاکٹر ہے۔ یہ ادارے کی ڈیٹیکشن میں ایسے طریقوں سے ٹریپ کرتی ہیں جن کا اندازہ لگانا مشکل ہے۔
مالی فائلوں میں پروڈکٹ کوڈ، ادارے کی سٹرنگ، اور اکاؤنٹ IDs ہوتے ہیں جو ذاتی ریکارڈ کے ساتھ سطحی نمونے شیئر کرتے ہیں۔
ڈومین ڈیٹا پر ماڈل کو فائن ٹیوننگ کرنا مدد کرتا ہے۔ لیکن اسے بنانے اور اپ ٹو ڈیٹ رکھنے میں وقت اور محنت لگتی ہے۔
ہائبرڈ ڈیٹیکشن اسے کیسے ٹھیک کرتی ہے
غلط نشان کے مسئلے کا ایک واضح حل ہے۔ کام کو ڈیٹا کی قسم کے مطابق تقسیم کریں۔
ساختی ڈیٹا کے لیے نمونے کے اصول۔ سوشل سیکیورٹی نمبر، فون نمبر، ای میل پتے، اور ID فارمیٹس مقررہ اصولوں پر عمل کرتے ہیں۔ ایک سٹرنگ یا تو نمونے میں فٹ بیٹھتی ہے اور چیک ڈیجٹ ٹیسٹ پاس کرتی ہے، یا نہیں کرتی۔ درست اصول سیٹوں کے لیے صفر غلط نشان۔
آزاد متن کے لیے زبان ماڈل۔ نثر میں پہلے اور آخری نام، کمپنی لیبل، اور مقامات سخت ساخت سے محروم ہوتے ہیں۔ NLP انہیں تلاش کرتا ہے جب اصول نہیں کر سکتے۔ اعتماد اسکور اور سیاق و سباق کی جانچ غلط نشان کی شرح کم کرتی ہے۔
باریک کنٹرول کے لیے فی قسم اسکور ترتیبات۔ قانونی ٹیمیں جو حد سے زیادہ تدوین کا خطرہ نہیں لے سکتیں دھندلے میلوں کے لیے اونچی حدیں ترتیب دیتی ہیں۔ تحقیقی ٹیمیں جنہیں اعلی واپسی چاہیے کم حدیں ترتیب دیتی ہیں۔ عملی طور پر اسکور کی سطحیں کیسے کام کرتی ہیں اس کے لیے تطابق کے لیے بائنری PII ڈیٹیکشن اور اعتماد اسکورنگ دیکھیں۔
نتیجہ Presidio ڈیفالٹس سے کہیں کم غلطیاں ہیں۔ واپسی مضبوط رہتی ہے جہاں اکیلے اصول زیادہ چھوڑ دیتے ہیں۔
قانونی اور صحت ٹیموں کے لیے، اہم سوال یہ نہیں ہے کہ غلط نشان موجود ہیں یا نہیں۔ NLP نظاموں میں وہ ہمیشہ ہوتے ہیں۔ سوال یہ ہے کہ کیا ٹول آپ کو تبادلہ ترتیب دینے، ناپنے اور دستاویز کرنے دیتا ہے۔