By · Last updated 2026-03-23

بلاگ پر واپس جائیںتکنیکی

غلط مثبتیں: ML تدوین کیوں ناکام ہوتی ہے

2024 کے بینچ مارک میں پتا چلا کہ Presidio نے 4,434 نمونوں میں 13,536 غلط مثبت نام ڈیٹیکشن پیدا کی — ضمیروں، بحری جہازوں کے ناموں اور ممالک کو شخصی ناموں کے طور پر نشان زد کیا۔

March 23, 20268 منٹ پڑھیں
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

2026 کے لیے اپ ڈیٹ شدہ

22.7% درستگی کا مسئلہ

2024 کی ایک تحقیق نے کاروباری فائلوں پر Microsoft Presidio کو جانچا۔ Presidio ایک اوپن سورس PII ٹول ہے۔ قانونی ٹیمیں اور صحت گروپ اسے وسیع پیمانے پر استعمال کرتے ہیں۔

تحقیق نے ناپا کہ Presidio کتنی بار درست تھا۔ ان تمام چیزوں میں سے جنہیں اس نے شخصی ناموں کے طور پر نشان زد کیا، اصل میں کتنے شخصی نام تھے؟

جواب تھا 22.7%۔ ہر 100 نشانوں میں سے تقریباً 77 غلط تھے۔ تحقیق نے 4,434 نمونہ فائلوں میں 13,536 غلط نشان گنے۔

غلطیاں بے ترتیب نہیں تھیں۔ انہوں نے واضح نمونوں کی پیروی کی:

  • جملے کے آغاز میں ضمیروں کو لوگوں کے طور پر نشان زد کیا (جملے کے شروع میں "I")
  • بحری جہازوں کے لیبل کو لوگوں کے طور پر نشان زد کیا ("ASL Scorpio")
  • کمپنی لیبل کو لوگوں کے طور پر نشان زد کیا ("Deloitte & Touche")
  • ملکی اصطلاحات کو لوگوں کے طور پر نشان زد کیا ("Argentina," "Singapore")

یہ کوئی نادر غیر معمولی معاملے نہیں ہیں۔ یہ اس وقت ظاہر ہوتے ہیں جب عام NLP ماڈل ڈومین مخصوص متن سے ملتا ہے۔ ماڈل انہیں الگ کرنے کے لیے نہیں بنایا گیا تھا۔

غلط نشانوں کی لاگت

قانونی اور صحت کے کام میں، ہر نشان کا جواب ضروری ہے۔ ٹیموں کے پاس تین اختیارات ہیں۔ تینوں کی حقیقی لاگتیں ہیں۔

اختیار 1: ہر نشان کو انسان جانچے۔ وکیل اور ماہر کا وقت فی گھنٹہ $200 سے $800 ہے۔ 22.7% درستگی پر، حجم بہت بڑا ہے۔ یہ پیمانے پر قابل عمل نہیں ہے۔ جائزے کی لاگتیں حجم کے ساتھ کیسے بڑھتی ہیں اس کے لیے eDiscovery PII آٹومیشن اور قانونی جائزے کی لاگت میں کمی دیکھیں۔

اختیار 2: جائزہ چھوڑیں اور آؤٹ پٹ پر بھروسہ کریں۔ یہ بھی خطرناک ہے۔ جب 77% "تدون شدہ" چیزیں حساس نہیں ہیں، تو آپ قانونی خطرہ پیدا کرتے ہیں۔ عدالتوں نے حد سے زیادہ تدوین کے لیے وکیلوں پر جرمانے کیے ہیں۔ دستاویز شدہ معاملات کے لیے eDiscovery حد سے زیادہ تدوین کی پابندیاں دیکھیں۔

اختیار 3: اسکور کی حد بڑھائیں۔ Presidio صارفین کو کمزور نشانوں کو چھوڑنے کے لیے score_threshold ترتیب دینے دیتا ہے۔ ایک 2024 DICOM تحقیق نے اسے 0.7 پر جانچا — کافی اونچی حد۔ نتیجہ: 39 میں سے 38 DICOM تصاویر میں ابھی بھی غلط نشان تھے۔ حدیں مدد کرتی ہیں۔ یہ بنیادی وجہ ٹھیک نہیں کرتیں۔

عام NLP یہاں کیوں مشکل میں پڑتا ہے

Presidio کی کمی تربیتی ڈیٹا اور حقیقی دنیا کے استعمال کے درمیان غیر میل سے آتی ہے۔

قانونی فائلیں بڑے حرف کی اصطلاحات سے بھری ہوتی ہیں۔ کیس کے نام، قانون کے عنوانات، اور نمائش کے کوڈ سب عام ماڈل کو ذاتی ڈیٹا جیسے لگتے ہیں۔ یہ انہیں نشان زد کرتا ہے۔ زیادہ تر ذاتی ڈیٹا نہیں ہیں۔

صحت کی فائلیں دوائی کے نام، آلے کے کوڈ، اور کلینیکل مختصر اشکال شامل کرتی ہیں۔ "Pt." کا مطلب مریض ہے۔ "Dr." کا مطلب ڈاکٹر ہے۔ یہ ادارے کی ڈیٹیکشن میں ایسے طریقوں سے ٹریپ کرتی ہیں جن کا اندازہ لگانا مشکل ہے۔

مالی فائلوں میں پروڈکٹ کوڈ، ادارے کی سٹرنگ، اور اکاؤنٹ IDs ہوتے ہیں جو ذاتی ریکارڈ کے ساتھ سطحی نمونے شیئر کرتے ہیں۔

ڈومین ڈیٹا پر ماڈل کو فائن ٹیوننگ کرنا مدد کرتا ہے۔ لیکن اسے بنانے اور اپ ٹو ڈیٹ رکھنے میں وقت اور محنت لگتی ہے۔

ہائبرڈ ڈیٹیکشن اسے کیسے ٹھیک کرتی ہے

غلط نشان کے مسئلے کا ایک واضح حل ہے۔ کام کو ڈیٹا کی قسم کے مطابق تقسیم کریں۔

ساختی ڈیٹا کے لیے نمونے کے اصول۔ سوشل سیکیورٹی نمبر، فون نمبر، ای میل پتے، اور ID فارمیٹس مقررہ اصولوں پر عمل کرتے ہیں۔ ایک سٹرنگ یا تو نمونے میں فٹ بیٹھتی ہے اور چیک ڈیجٹ ٹیسٹ پاس کرتی ہے، یا نہیں کرتی۔ درست اصول سیٹوں کے لیے صفر غلط نشان۔

آزاد متن کے لیے زبان ماڈل۔ نثر میں پہلے اور آخری نام، کمپنی لیبل، اور مقامات سخت ساخت سے محروم ہوتے ہیں۔ NLP انہیں تلاش کرتا ہے جب اصول نہیں کر سکتے۔ اعتماد اسکور اور سیاق و سباق کی جانچ غلط نشان کی شرح کم کرتی ہے۔

باریک کنٹرول کے لیے فی قسم اسکور ترتیبات۔ قانونی ٹیمیں جو حد سے زیادہ تدوین کا خطرہ نہیں لے سکتیں دھندلے میلوں کے لیے اونچی حدیں ترتیب دیتی ہیں۔ تحقیقی ٹیمیں جنہیں اعلی واپسی چاہیے کم حدیں ترتیب دیتی ہیں۔ عملی طور پر اسکور کی سطحیں کیسے کام کرتی ہیں اس کے لیے تطابق کے لیے بائنری PII ڈیٹیکشن اور اعتماد اسکورنگ دیکھیں۔

نتیجہ Presidio ڈیفالٹس سے کہیں کم غلطیاں ہیں۔ واپسی مضبوط رہتی ہے جہاں اکیلے اصول زیادہ چھوڑ دیتے ہیں۔

قانونی اور صحت ٹیموں کے لیے، اہم سوال یہ نہیں ہے کہ غلط نشان موجود ہیں یا نہیں۔ NLP نظاموں میں وہ ہمیشہ ہوتے ہیں۔ سوال یہ ہے کہ کیا ٹول آپ کو تبادلہ ترتیب دینے، ناپنے اور دستاویز کرنے دیتا ہے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.