By · Last updated 2026-06-05

بلاگ پر واپس جائیںتکنیکی

Presidio کا 22.7% Precision کا مسئلہ

2024 کے ایک benchmark نے پایا کہ Presidio کا person name recognizer کاروباری دستاویزات میں 22.7% precision حاصل کرتا ہے — یعنی 77.3% detections false positives ہیں۔

June 5, 20267 منٹ پڑھیں
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio کا 22.7% Precision کا مسئلہ

PII detection میں false positives سے حقیقی نقصان ہوتا ہے۔ جب آپ کا ٹول جو چیزیں "person names" کے طور پر flag کرتا ہے ان میں سے 77.3% اصل نام نہیں ہوتے، تو آپ پرائیویسی کی حفاظت نہیں کر رہے۔ آپ ڈیٹا تباہ کر رہے ہیں۔

ایک 2024 کے benchmark نے Microsoft Presidio کے default NER model کو کاروباری دستاویزات پر آزمایا۔ ٹیسٹ میں مالی رپورٹیں، customer letters، پروڈکٹ docs، اور support tickets شامل تھے۔ نتیجہ: name detection کے لیے 22.7% precision۔

یہ عدد حیران کن ہے۔ ہر 100 flagged items میں سے 23 اصل فردی نام ہیں۔ باقی 77 false positives ہیں — پروڈکٹ labels، brand terms، یا شہروں کے نام۔

چار میں سے تین detections غلط ہیں۔ کاروباری دستاویزات کے کام کے لیے یہ معمولی calibration مسئلہ نہیں ہے۔ یہ ایک ٹوٹا ہوا ٹول ہے۔

یہ کیوں ہوتا ہے

Presidio بطور ڈیفالٹ spaCy کا en_core_web_lg ماڈل استعمال کرتا ہے۔ یہ ماڈل خبری متن سے سیکھا۔ خبروں میں، زیادہ تر proper nouns اصل لوگ یا جگہیں ہیں۔

کاروباری دستاویزات مختلف ہیں۔

پروڈکٹ labels جو انفرادی ناموں جیسے لگتے ہیں۔ "Apple iPhone 15 Pro shipment records" کو PERSON کے طور پر flag کیا جاتا ہے۔ "Samsung Galaxy Tab" اور "Cisco Meraki deployment" بھی ایسا ہی ہوتا ہے۔

کمپنی کی اصطلاحات جن میں نام جیسے حصے ہیں۔ "Johnson Controls results" میں لفظ "Johnson" کو PERSON کے طور پر flag کیا جاتا ہے۔ "Goldman Sachs portfolio" بھی یہی غلطی کرتا ہے۔

مقام کے labels جو person detection کو trigger کرتے ہیں۔ "Victoria Harbour project" میں "Victoria" کو PERSON کے طور پر flag کیا جاتا ہے۔ "Santiago hub" بھی "Santiago" کو اسی طرح flag کرتا ہے۔

ماڈل میں "Apple" (کمپنی) اور "Apple Smith" (ایک شخص) میں فرق کرنے کی صلاحیت نہیں ہے۔ یہ خلا زیادہ تر false positives کی جڑ ہے۔ خبری متن نے اسے سکھایا کہ proper nouns کو لوگ یا جگہیں سمجھے۔ کاروباری متن اس اصول کو مسلسل توڑتا ہے۔

اثرات

ایک ڈیٹا فرم نے Presidio کو customer surveys شیئر کرنے سے پہلے صاف کرنے کے لیے استعمال کیا۔ ایک آڈٹ نے چار مسائل پائے۔ اول، 40% surveys میں پروڈکٹ labels غلط طریقے سے ہٹائے گئے۔ دوم، شہروں کے نام ہر جواب سے نکال دیے گئے۔ سوم، brand mentions تجزیاتی سیٹ سے مٹا دیے گئے۔ چہارم، مخصوص پروڈکٹس کے بارے میں sentiment نہیں پڑھا جا سکتا تھا۔

تجزیاتی ٹیم کو ایسا redacted متن ملا جس میں تمام پروڈکٹ حوالہ جات ہٹا دیے گئے تھے۔ survey اصل میں iPhone Pro اور Apple charger کا ذکر کر چکی تھی۔ وہ معنی چلے گئے تھے۔

فرم پرائیویسی کی بہتر حفاظت نہیں کر رہی تھی۔ وہ compliance فائدے کے بغیر ڈیٹا توڑ رہی تھی۔ آڈٹ کے بعد Presidio کو تبدیل کر دیا گیا۔

یہ جاننے کے لیے کہ detection quality آپ کی regulatory standing کو کیسے متاثر کرتی ہے، ہمارا compliance جائزہ دیکھیں۔

بہتر نقطہ نظر: Hybrid Detection

یہ مسئلہ صرف Presidio تک محدود نہیں ہے۔ context کے بغیر token-level NER میں ہمیشہ یہ مسئلہ رہے گا۔ حل context-aware detection ہے۔

Transformers کیوں مددگار ہیں: XLM-RoBERTa جیسا ماڈل پوری جملہ پڑھتا ہے۔ "Apple announced its earnings" → Apple ایک فرم ہے۔ "Apple Smith joined the team" → Apple ایک پہلا نام ہے۔ سیاق و سباق بتاتا ہے کہ کون سا کون ہے۔

یہ recall کو بلند رکھتے ہوئے precision بہتر کرتا ہے۔ نیچے موازنہ دیکھیں:

نقطہ نظرPrecisionRecall
Presidio default NER22.7%~85%
Regex-only~95%~40%
Hybrid (Regex + NLP + Transformer)~85%~80%

hybrid نقطہ نظر 85% precision تک پہنچتا ہے۔ یعنی 15% false positive rate۔ 77.3% سے کہیں بہتر۔ کاروباری دستاویزات کے لیے یہ فرق اہم ہے۔

hybrid stack چار مراحل پر مشتمل ہے:

  1. Regex layer: structured IDs ڈھونڈتا ہے — emails، phone numbers، SSNs، IBANs۔ فارمیٹ مقرر ہیں، اس لیے false positives کم ہیں۔ یہ پہلے چلتا ہے۔

  2. NLP layer (spaCy): لوگوں، فرموں، اور جگہوں کے لیے معیاری NER۔ زیادہ recall، کم precision۔

  3. Transformer layer (XLM-RoBERTa): پوری جملے کے سیاق و سباق کا استعمال کرتے ہوئے ہر NLP نتیجے کو دوبارہ score کرتا ہے۔ پروڈکٹ سیاق و سباق میں "Apple" اپنا entity score کھو دیتا ہے۔ complaint متن میں "John" اسے حاصل کرتا ہے۔

  4. Confidence threshold: صرف ایک مقررہ score سے اوپر کے hits آؤٹ پٹ تک پہنچتے ہیں۔ تجزیاتی use cases کے لیے threshold بڑھائیں۔ HIPAA de-identification کے لیے کم کریں۔

سوئچ کرنے کے بعد نتائج

tجزیاتی فرم نے hybrid detection پر سوئچ کیا۔ فوائد واضح تھے۔ پروڈکٹ label false positives 40% سے 3% تک گرے۔ شہر کے label false positives قریباً صفر ہو گئے۔ اصل identity recall ~82% پر رہی، 85% سے قدرے کم، لیکن precision کافی بہتر ہوئی۔

Surveys دوبارہ قابلِ استعمال ہو گئیں۔ "iPhone"، "Apple"، "Samsung"، اور "Chicago" متن میں باقی رہے۔ complaint سیاق و سباق میں customer کے نام صحیح طریقے سے ہٹا دیے گئے۔

hybrid detection زیادہ compute لیتی ہے۔ بڑے کاموں کے لیے، runtime تھوڑا لمبا ہوتا ہے۔ زیادہ تر کاروباری use cases کے لیے، accuracy کا فائدہ قابلِ قدر ہے۔ فرم دوبارہ تجزیہ کر سکتی تھی۔ survey data کا یہی مقصد تھا۔

ہمارے detection نقطہ نظر کے بارے میں security جائزے میں پڑھیں۔

جب زیادہ False Positive Rates قابلِ قبول ہوں

کچھ cases میں precision پر recall کو ترجیح دی جاتی ہے۔

HIPAA Safe Harbor: ایک true positive چھوٹنا خلاف ورزی ہے۔ 10% false positive rate ٹھیک ہے اگر اصل PHI کبھی نہ چھوٹے۔ زیادہ removal کم removal سے محفوظ ہے۔

قانونی جائزہ: ایک privileged contact چھوٹنا privilege ختم کر سکتا ہے۔ False positives کو جائزہ کی ضرورت ہوتی ہے لیکن ذمہ داری پیدا نہیں کرتے۔

کاروباری تجزیات: زیادہ removal compliance فائدے کے بغیر ڈیٹا توڑتی ہے۔ یہاں precision زیادہ اہم ہے۔ زیادہ confidence threshold کے ساتھ hybrid نقطہ نظر استعمال کریں۔ یہ brand labels اور شہر کی اصطلاحات آؤٹ پٹ میں رکھتا ہے۔ صرف اصل شخصی نام ہٹتے ہیں۔

صحیح توازن آپ کے use case پر منحصر ہے۔ جو ٹولز threshold مقرر کرنے دیتے ہیں وہ آپ کو کنٹرول دیتے ہیں۔ کوئی ایک default ہر سیاق و سباق کے لیے کام نہیں کرتا۔

thresholds اور detection modes کے بارے میں عام سوالات کے لیے ہمارا FAQ دیکھیں۔

نتیجہ

22.7% precision rate کا مطلب ہے کہ 4 میں سے 3 detections غلط ہیں۔ کاروباری دستاویزات کے لیے یہ آؤٹ پٹ کو تجزیے کے قابل نہیں رہنے دیتا۔ یہ compliance کے بارے میں جھوٹا اعتماد بھی دیتا ہے۔

hybrid detection یہ ٹھیک کرتی ہے۔ یہ regex، NLP، اور transformer scoring کو یکجا کرتی ہے۔ anonymization کے بعد ڈیٹا مفید رہتا ہے۔ اصل شخصی نام ہٹ جاتے ہیں۔ Brand labels، شہر کی اصطلاحات، اور پروڈکٹ شناخت کار باقی رہتے ہیں۔

اگر آپ نے false positive مسائل کی وجہ سے Presidio چھوڑا تھا، تو یہ آگے کا راستہ ہے۔ اسی ماڈل کی نئی config نہیں۔ کاروباری دستاویز سیاق و سباق کے لیے بنائی گئی مختلف architecture۔

ذرائع

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.