By · Last updated 2026-04-03

بلاگ پر واپس جائیںتکنیکی

PII ٹولز پر غلط مثبت ٹیکس

Presidio GitHub مسئلہ #1071 منظم غلط مثبتوں کو دستاویز کرتا ہے۔ 2024 کے ایک مطالعے نے ملی جلی زبان کے انٹرپرائز ڈیٹاسیٹس میں 22.7% درستگی پائی۔

April 3, 20268 منٹ پڑھیں
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

PII ڈیٹیکشن ٹولز پر غلط مثبت ٹیکس

2026 کے لیے اپ ڈیٹ کیا گیا

زیادہ تر PII ٹولز کو ریکال پر پرکھا جاتا ہے۔ ریکال اس بات کو ماپتا ہے کہ ٹول اصل PII کا کتنا حصہ ڈھونڈتا ہے۔ لیکن درستگی بھی اتنی ہی اہم ہے۔ درستگی یہ ماپتی ہے کہ ٹول کے الرٹس میں سے کتنا حصہ اصل PII ہے۔

کم درستگی مہنگی ہے۔ 95% ریکال اور 22.7% درستگی والا سسٹم زیادہ تر PII پکڑتا ہے۔ پھر بھی ہر اصل PII ہستی کے لیے جسے یہ نشان زد کرتا ہے، یہ 3.4 غلط الرٹس بھی بلند کرتا ہے۔ 10,000 اصل PII ہستیوں والے ڈیٹاسیٹ میں، وہ سسٹم تقریباً 44,000 الرٹس داغتا ہے۔ ان میں سے تقریباً 34,000 غلط ہیں۔ ہر ایک کو جائزہ لینے میں وقت لگتا ہے یا ضرورت سے زیادہ ریڈیکشن کا سبب بنتا ہے۔

یہ غلط مثبت ٹیکس ہے۔ یہ وہ اوورہیڈ ہے جو کوئی بھی ٹیم بڑے پیمانے پر ہائی ریکال، لو پریسیژن PII سسٹم چلاتے وقت ادا کرتی ہے۔ براہ راست لاگت جائزہ کار کا وقت ہے۔ بالواسطہ لاگت اس سے بھی بری ہے: ضرورت سے زیادہ ریڈیکٹ کی گئی دستاویزات مفید ڈیٹا چھپاتی ہیں، کام سست کرتی ہیں، اور ٹول پر اعتماد کمزور کرتی ہیں۔

Presidio مسئلہ #1071 کیا ظاہر کرتا ہے

Microsoft Presidio GitHub بحث #1071 (2024) ایک مخصوص پیٹرن ریکارڈ کرتی ہے۔ TFN (ٹیکس فائل نمبر) اور PCI ریکگنائزر چیکسم تصدیق استعمال کرتے ہیں۔ چیکسم پاس کرنے والے نمبر 1.0 کا اسکور پاتے ہیں — زیادہ سے زیادہ اعتماد۔ کوئی PII سیاق و سباق درکار نہیں۔

بنیادی وجہ: سیاق و سباق کے الفاظ کی جانچ چیکسم قدم کے بعد چلتی ہے، پہلے نہیں۔ چیکسم پاس کرنے والا نمبر آس پاس کے متن سے قطع نظر سب سے زیادہ اسکور پاتا ہے۔ مالیاتی اسپریڈ شیٹس، سائنسی ڈیٹاسیٹس، یا لاگ فائلوں میں، یہ آؤٹ پٹ کو غلط الرٹس سے بھر دیتا ہے۔ اسکور تھریشولڈ فلٹرنگ اسے ٹھیک نہیں کر سکتی۔ اسکور پہلے سے زیادہ سے زیادہ ہیں۔

Presidio مسئلہ #999 میں ایک دوسرا پیٹرن ظاہر ہوتا ہے۔ جرمن لفظ سیگمنٹیشن مرکب اسموں کے لیے ٹوٹ جاتی ہے۔ Bundesbehörde (وفاقی اتھارٹی) جیسے الفاظ غلط طریقے سے تقسیم کیے جا سکتے ہیں اور ذاتی نام کے طور پر ٹیگ کیے جا سکتے ہیں۔ یہ کسی بھی جرمن زبان کی دستاویز میں شور جوڑتا ہے۔

22.7% درستگی کا مسئلہ

Alvaro وغیرہ (2024) نے ملی جلی زبان کے انٹرپرائز ڈیٹاسیٹس پر Presidio کو آزمایا۔ انہوں نے 22.7% درستگی پائی۔ اصل دستاویزات میں، ہر چار Presidio الرٹس میں سے ایک سے بھی کم اصل PII ہستی ہے۔ یہ اس سے میل کھاتا ہے جو پریکٹیشنر رپورٹ کرتے ہیں۔ صرف ریکال کے لیے ٹیون کیا گیا ٹول پروڈکشن استعمال کے لیے بہت زیادہ شور پیدا کرتا ہے۔

2024 DICOM مطالعے نے دکھایا کہ score_threshold کو 0.7 تک بڑھانا پھر بھی 39 میں سے 38 طبی تصویروں میں غلط الرٹس چھوڑ گیا۔ ایک ڈاکیومنٹ کی قسم میں شور صاف کرنے والی تھریشولڈ دوسری میں چھوٹنے کو بڑھاتی ہے۔

یہ صرف Presidio کا مسئلہ نہیں ہے۔ کوئی بھی مقررہ تھریشولڈ تجارت کو مجبور کرتی ہے۔ ہائی تھریشولڈ شور کم کرتی ہے لیکن چھوٹنے بڑھاتی ہے۔ لو تھریشولڈ ریکال بڑھاتی ہے لیکن الرٹ کی تعداد پھلاتی ہے۔

سیاق و سباق سے واقف اسکورنگ

حل سیاق و سباق سے واقف اعتماد اسکورنگ ہے۔ صرف پیٹرن میچ پر اسکورنگ کرنے کے بجائے، سسٹم اعتماد بڑھاتا ہے جب میچ کے قریب سیاق و سباق کے الفاظ ظاہر ہوتے ہیں۔ یہ اسکور کو کم بھی کرتا ہے جب سیاق و سباق غیر حاضر ہو۔

TFN ڈیٹیکشن کے لیے: "tax file number"، "TFN"، یا "Australian tax" جیسے الفاظ نمبر کے قریب اس کا اسکور بڑھاتے ہیں۔ جو نمبر چیکسم پاس کرتا ہے لیکن آس پاس سیاق و سباق کے الفاظ نہیں رکھتا وہ جائزہ تھریشولڈ سے نیچے اسکور کرتا ہے۔ جھوٹا الرٹ دبا دیا جاتا ہے۔

کراس لسانی شور کے لیے: مخصوص ملکوں سے منسلک ہستی اقسام کو میچ کرنے والی زبان کی دستاویزات تک محدود کیا جا سکتا ہے۔ انگریزی اور آسٹریلین انگریزی متن تک محدود TFN ڈیٹیکٹر شور ہٹاتا ہے۔ اسکوپنگ کے بغیر اسے جرمن مواد پر چلانا ہی مسئلے کی جڑ ہے۔

ہائبرڈ سسٹم کی تیسری تہہ ایک ٹرانسفارمر ماڈل ہے۔ یہ ہر امیدوار کے ارد گرد پورا سیاق و سباق ونڈو پڑھتا ہے۔ یہ "John Smith، Patient ID 12345" کو ایک پروڈکٹ کوڈ سے الگ کرتا ہے جو نام پیٹرن سے میل کھاتا ہے۔ سیاق و سباق اس ابہام کو حل کرتا ہے جو regex اور چیکسم نہیں کر سکتے۔

دیکھیں کیسے تین تہوں کا ڈیٹیکشن انجن بڑے پیمانے پر درستگی سنبھالتا ہے۔ کثیر لسانی PII ڈیٹیکشن گائیڈ GDPR تعمیل پر کراس لسانی شور کے اثر کا احاطہ کرتی ہے۔

عملی اقدامات

کوئی بھی PII ٹول تعینات کرنے سے پہلے، اس کی درستگی ماپیں — صرف ریکال نہیں۔

ٹول کو معلوم PII اور معلوم غیر PII والے دستاویز سیٹ پر چلائیں۔ دونوں گروپوں میں الرٹس گنیں۔ true_positives / (true_positives + false_positives) حساب کریں۔ یہ نمبر rollout کا عہد کرنے سے پہلے جائزہ کا بوجھ ظاہر کرتا ہے۔

Predio استعمال کرنے والی ٹیموں کے لیے، اسکور تقسیم کا تجزیہ ایک تیز راستہ ہے۔ ان کے اعتماد اسکور کے ساتھ ڈیٹیکشن کا نمونہ برآمد کریں۔ گنیں کتنے 0.6، 0.7، اور 0.8 سے نیچے اسکور کرتے ہیں۔ صاف متن میں ہائی اسکور الرٹس کا بڑا حصہ سیاق و سباق کے خلا کی نشاندہی کرتا ہے، تھریشولڈ کے مسئلے کی نہیں۔ سیکیورٹی تعمیل کا جائزہ بیان کرتا ہے کہ DPIA میں اسے کیسے دستاویز کیا جائے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.