By · Last updated 2026-06-05

بلاگ پر واپس جائیںتکنیکی

مفت PII Detection کی سالانہ لاگت €13,000 ہے

Presidio کو خود host کرنے کے لیے ابتدائی setup میں 40 سے 80 گھنٹے اور ماہانہ دیکھ بھال میں 5 سے 10 گھنٹے درکار ہوتے ہیں۔ €100 فی گھنٹہ engineering rates پر یہ €13,200 سے زیادہ بنتا ہے۔

June 5, 20267 منٹ پڑھیں
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

"مفت" PII Detection کی اصل لاگت

"یہ مفت ہے" کوئی لاگت تجزیہ نہیں ہے۔ یہ ایک license price ہے — بہت سے عوامل میں سے ایک۔

Microsoft Presidio download کرنے میں €0 لگتا ہے۔ سافٹ ویئر open-source ہے۔ لیکن ایک insurance کمپنی میں اسے چلانے میں پہلے سال €13,000 سے زیادہ خرچ ہوتا ہے۔ یہ فرق engineering وقت ہے۔

Production Deployment کو کیا درکار ہے

ٹول کو production کے لیے تیار کرنے میں 40–80 گھنٹے لگتے ہیں۔ یہ وقت اس طرح جاتا ہے:

Docker setup: 4–8 گھنٹے۔ ٹول کئی containers استعمال کرتا ہے۔ ایک analyzer service، ایک anonymizer service، اور ایک اختیاری image redactor۔ انہیں ایک دوسرے سے بات کرانا مشکل ہے۔ GitHub issues دکھاتے ہیں کہ یہ ایک عام failure point ہے۔

Python setup: 2–4 گھنٹے۔ libraries کے سخت version قوانین ہیں۔ تنازعات عام ہیں — خاص طور پر spaCy model versions اور Python 3.8/3.9/3.10 کے درمیان۔ GitHub اس موضوع پر سینکڑوں کھلے issues دکھاتا ہے۔

Language model downloads: 2–4 گھنٹے۔ spaCy models 300 MB سے 1.4 GB تک ہوتے ہیں۔ پانچ زبانوں کے setup کو 1.5–7 GB storage درکار ہے۔ Model loading failures سب سے عام support issues میں شامل ہیں۔

Custom recognizers: 8–16 گھنٹے۔ default set تقریباً 40 entity types cover کرتا ہے۔ زیادہ تر US identifiers ہیں۔ EU deployments کو European national IDs کی ضرورت ہے۔ Healthcare teams کو medical record formats چاہئیں۔ ہر قسم کو Python code، YAML setup، اور testing کی ضرورت ہے۔

API setup: 4–8 گھنٹے۔ Production config میں timeouts، auth، rate limits، اور logging شامل ہیں۔ سرکاری docs محدود ہیں۔ زیادہ تر teams GitHub issue threads میں جوابات ڈھونڈتی ہیں۔

Audit logging: 4–8 گھنٹے۔ GDPR data processing کے ریکارڈ کا تقاضا کرتا ہے۔ ٹول میں کوئی audit log نہیں ہے۔ Teams کو اسے custom code کے طور پر لکھنا پڑتا ہے۔

ٹیم کی docs: 4–8 گھنٹے۔

کل ابتدائی setup: 28–52 گھنٹے €100/گھنٹہ = €2,800–5,200۔

سالانہ دیکھ بھال کے اخراجات

ٹول سال میں 2–4 بار updates بھیجتا ہے۔ بڑے releases نے APIs توڑی ہیں۔ جاری رہنے کے لیے changes کو track کرنا، staging میں test کرنا، اور deploy کرنا ضروری ہے۔

spaCy model updates بھی کام بڑھاتے ہیں۔ نئے model versions کو live جانے سے پہلے re-download اور accuracy checks کی ضرورت ہوتی ہے۔

Python dependency تنازعات جاری رہتے ہیں۔ آج کا صاف setup اگلے مہینے security patch آنے پر ٹوٹ سکتا ہے۔

نگرانی بھی جاری رہتی ہے۔ Container health، memory leaks، اور restart steps سبھی کو باقاعدہ توجہ کی ضرورت ہے۔ spaCy models memory میں بھاری ہیں۔

کل سالانہ دیکھ بھال: 60–120 گھنٹے €100/گھنٹہ = €6,000–12,000۔

ایک حقیقی کیس

ایک insurance فرم کی compliance ٹیم نے claims دستاویزات process کرنے کا ارادہ کیا۔ ان کے پاس دو junior data engineers تھے اور کوئی DevOps support نہیں تھا۔

پہلا ہفتہ۔ دو مرکزی containers آپس میں بات نہیں کر سکتے تھے۔ GitHub کی مدد سے تین دن میں ٹھیک ہوا۔

دوسرا ہفتہ۔ Models production میں load نہیں ہوئے۔ Memory config dev setup سے مختلف تھا۔ دو دن تشخیص، ایک اور ٹھیک کرنے میں۔

تیسرا ہفتہ۔ UK National Insurance Number کا ایک custom rule tests میں کام کیا لیکن اصل دستاویزات پر false positives ہوئے۔ مزید دو دن tuning۔

چوتھا ہفتہ۔ پروجیکٹ escalate ہوا۔ تین engineering ہفتے خرچ ہو چکے تھے۔ ابھی بھی production میں نہیں تھا۔

ٹیم نے پھر anonym.legal آزمایا۔ signup کے 12 منٹ بعد پہلی دستاویز process ہوئی۔ UK National Insurance Number detection پہلے سے موجود تھی۔ کوئی setup ضروری نہیں تھا۔

وہ anonym.legal Professional پر منتقل ہو گئے €180/سال پر۔

پہلے سال کی TCO:

  • Self-hosted راستہ — مزید 40–80 گھنٹے مکمل کرنے کے لیے، پھر €6,000–12,000/سال دیکھ بھال۔ کل: €10,000–20,000۔
  • anonym.legal Professional — €180/سال۔ Deploy وقت: ~12 منٹ۔
  • بچائے گئے engineering گھنٹے: ~132/سال €100/گھنٹہ = €13,200۔

پہلے سال میں 70x لاگت کا فرق ہے۔

جن teams کو false positive مسائل کا بھی سامنا ہے، ان کے لیے Presidio کے precision مسئلے پر ہماری پوسٹ دیکھیں۔

جب Self-Hosting منطقی ہو

زیادہ تر teams کے لیے managed SaaS جیتتی ہے۔ لیکن self-hosting کچھ cases میں موزوں ہے۔

Data sovereignty۔ کچھ قوانین یا معاہدے ڈیٹا کو باہر بھیجنے پر پابندی لگاتے ہیں۔ ہماری Desktop App (anonym.plus) مکمل offline چلتی ہے۔ کوئی ڈیٹا مشین سے باہر نہیں جاتا۔ وہی accuracy، کوئی server نہیں۔

بہت زیادہ volume۔ روزانہ لاکھوں API calls per-call pricing کو server costs سے زیادہ کر سکتی ہیں۔ اس scale پر، stack کا مالک ہونا منطقی ہے۔

پروڈکٹ integration۔ اپنی PII detection اپنے پروڈکٹ میں شامل کر رہے ہیں اور مکمل control چاہتے ہیں؟ یہاں custom open-source کام درست ہے۔

موجودہ DevOps۔ جن teams کے پاس پہلے سے بہت سی services چلانے والی platform team ہے انہیں کم اضافی لاگت آتی ہے۔ Infrastructure ان کے لیے sunk cost ہے۔

باقی سب کے لیے — compliance teams، startups، بغیر DevOps والی teams — managed SaaS واضح انتخاب ہے۔ hosted processing کے enterprise needs کو کیسے پورا کرتا ہے یہ جاننے کے لیے ہمارا security compliance جائزہ دیکھیں۔

نتیجہ

Open-source tools کے اخراجات license میں ظاہر نہیں ہوتے۔ اس قسم کے ٹول کے لیے بڑی لاگت engineering وقت ہے۔ Setup: 40–80 گھنٹے۔ سالانہ دیکھ بھال: 60–120 گھنٹے۔ معمول کے rates پر، self-hosted راستہ managed service سے 20–75x زیادہ مہنگا ہے۔

صحیح سوال یہ نہیں ہے "سافٹ ویئر کتنا مہنگا ہے؟" بلکہ "اسے چلانا کتنا مہنگا ہے؟" زیادہ تر teams کے لیے، اس جواب کی سمت managed SaaS کی طرف ہے۔

ذرائع

Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.

Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.

GDPR Article 32: Technical measures for appropriate security. VERIFIED-EXTERNAL.

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.