By · Last updated 2026-06-05

بازگشت به وبلاگفنی

تشخیص رایگان PII سالانه €۱۳ هزار هزینه دارد

راه‌اندازی Presidio به صورت خود-میزبان ۴۰ تا ۸۰ ساعت راه‌اندازی اولیه و ۵ تا ۱۰ ساعت نگهداری ماهانه نیاز دارد. با نرخ مهندسی €۱۰۰ در ساعت، این €۱۳٬۲۰۰ یا بیشتر است.

June 5, 20267 دقیقه مطالعه
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

هزینه واقعی تشخیص «رایگان» PII

«رایگان است» تحلیل هزینه نیست. قیمت مجوز است — یک عامل از میان عوامل بسیار.

Microsoft Presidio برای دانلود €۰ هزینه دارد. نرم‌افزار متن‌باز است. اما اجرای آن در یک شرکت بیمه در سال اول بیش از €۱۳٬۰۰۰ هزینه دارد. این شکاف زمان مهندسی است.

یک استقرار تولیدی به چه چیزی نیاز دارد

آماده کردن ابزار برای تولید ۴۰ تا ۸۰ ساعت طول می‌کشد. این زمان به این‌گونه صرف می‌شود.

راه‌اندازی Docker: ۴ تا ۸ ساعت. ابزار از چندین کانتینر استفاده می‌کند. یک سرویس تحلیلگر، یک سرویس ناشناس‌ساز، و یک ویرایشگر تصویر اختیاری. وادار کردن آن‌ها به ارتباط با یکدیگر سخت است. مشکلات GitHub نشان می‌دهد این نقطه شکست رایجی است.

راه‌اندازی Python: ۲ تا ۴ ساعت. کتابخانه‌ها قوانین نسخه سختگیرانه‌ای دارند. تعارضات رایج هستند — به‌ویژه بین نسخه‌های مدل spaCy و Python 3.8/3.9/3.10. GitHub صدها مشکل باز در این موضوع نشان می‌دهد.

دانلود مدل زبانی: ۲ تا ۴ ساعت. مدل‌های spaCy از ۳۰۰ مگابایت تا ۱.۴ گیگابایت هر کدام متغیر هستند. یک راه‌اندازی پنج‌زبانه به ۱.۵ تا ۷ گیگابایت فضای ذخیره‌سازی نیاز دارد. خرابی‌های بارگذاری مدل از رایج‌ترین مشکلات پشتیبانی هستند.

تشخیص‌دهنده‌های سفارشی: ۸ تا ۱۶ ساعت. مجموعه پیش‌فرض حدود ۴۰ نوع موجودیت را پوشش می‌دهد. بیشترشان شناسه‌های آمریکایی هستند. استقرارهای اتحادیه اروپا به شناسه‌های ملی اروپایی نیاز دارند. تیم‌های بهداشت و درمان به فرمت‌های پرونده پزشکی نیاز دارند. هر نوع به کد Python، تنظیم YAML، و آزمایش نیاز دارد.

راه‌اندازی API: ۴ تا ۸ ساعت. پیکربندی تولید شامل timeout، احراز هویت، محدودیت نرخ، و logging است. مستندات رسمی نازک است. اکثر تیم‌ها پاسخ‌ها را در thread‌های مشکل GitHub پیدا می‌کنند.

ثبت حسابرسی: ۴ تا ۸ ساعت. GDPR نیازمند سوابق پردازش داده است. ابزار به‌طور پیش‌فرض هیچ لاگ حسابرسی ندارد. تیم‌ها باید آن را به عنوان کد سفارشی بنویسند.

مستندات تیم: ۴ تا ۸ ساعت.

مجموع راه‌اندازی اولیه: ۲۸ تا ۵۲ ساعت در €۱۰۰ در ساعت = €۲٬۸۰۰ تا €۵٬۲۰۰.

هزینه‌های نگهداری سالانه

ابزار ۲ تا ۴ بار در سال به‌روزرسانی ارسال می‌کند. نسخه‌های اصلی API‌ها را شکسته‌اند. همگام ماندن یعنی پیگیری تغییرات، آزمایش در staging، و استقرار.

به‌روزرسانی‌های مدل spaCy هم کار اضافه می‌آورند. نسخه‌های جدید مدل قبل از زنده شدن نیاز به دانلود مجدد و بررسی دقت دارند.

تعارضات وابستگی Python ادامه دارند. یک راه‌اندازی تمیز امروز ممکن است وقتی یک وصله امنیتی ماه آینده ارسال می‌شود بشکند.

نظارت هم مستمر است. سلامت کانتینر، نشت حافظه، و مراحل راه‌اندازی مجدد همه نیاز به توجه منظم دارند. مدل‌های spaCy حافظه‌بر هستند.

مجموع نگهداری سالانه: ۶۰ تا ۱۲۰ ساعت در €۱۰۰ در ساعت = €۶٬۰۰۰ تا €۱۲٬۰۰۰.

مطالعه موردی از دنیای واقعی

یک تیم انطباق در یک شرکت بیمه برای پردازش اسناد ادعا تصمیم گرفت. دو مهندس داده ارشد داشتند و هیچ پشتیبانی DevOps نداشتند.

هفته ۱. دو کانتینر اصلی نمی‌توانستند با یکدیگر ارتباط برقرار کنند. سه روز برای رفع با کمک از GitHub.

هفته ۲. مدل‌ها در تولید بارگذاری نشدند. پیکربندی حافظه با راه‌اندازی dev متفاوت بود. دو روز برای تشخیص، یک روز دیگر برای رفع.

هفته ۳. یک قانون سفارشی شماره بیمه ملی UK در آزمایش‌ها کار کرد اما روی اسناد واقعی مثبت کاذب داشت. دو روز دیگر تنظیم.

هفته ۴. پروژه تشدید یافت. سه هفته مهندسی صرف شد. هنوز در تولید نبود.

سپس تیم anonym.legal را امتحان کرد. اولین سند پردازش‌شده: ۱۲ دقیقه پس از ثبت‌نام. تشخیص شماره بیمه ملی UK از قبل ساخته شده بود. هیچ راه‌اندازی نیاز نبود.

آن‌ها به anonym.legal Professional در €۱۸۰ در سال منتقل شدند.

TCO سال اول:

  • مسیر خود-میزبان — ۴۰ تا ۸۰ ساعت بیشتر برای تکمیل، سپس €۶٬۰۰۰ تا €۱۲٬۰۰۰ در سال برای نگهداری. مجموع: €۱۰٬۰۰۰ تا €۲۰٬۰۰۰.
  • anonym.legal Professional — €۱۸۰ در سال. زمان استقرار: ~۱۲ دقیقه.
  • ساعات مهندسی ذخیره‌شده: ~۱۳۲ در سال در €۱۰۰ در ساعت = €۱۳٬۲۰۰.

این در سال اول یک شکاف هزینه‌ای ۷۰ برابری است.

برای تیم‌هایی که با مشکلات مثبت کاذب روبه‌رو هستند، پست ما درباره مشکل دقت Presidio را ببینید.

زمانی که خود-میزبانی منطقی است

SaaS مدیریت‌شده برای اکثر تیم‌ها برنده می‌شود. اما خود-میزبانی برخی موارد را پوشش می‌دهد.

حاکمیت داده. برخی قوانین یا قراردادها ارسال داده به خارج را ممنوع می‌کنند. برنامه Desktop ما (anonym.plus) کاملاً آفلاین کار می‌کند. هیچ داده‌ای ماشین را ترک نمی‌کند. همان دقت، بدون نیاز به سرور.

حجم بسیار بالا. میلیون‌ها فراخوانی API در روز می‌توانند قیمت‌گذاری per-call را بالاتر از هزینه‌های سرور ببرند. در آن مقیاس، داشتن stack منطقی است.

یکپارچه‌سازی محصول. آیا تشخیص PII را در محصول خودتان می‌سازید و به کنترل کامل نیاز دارید؟ کار متن‌باز سفارشی اینجا معتبر است.

DevOps موجود. تیم‌هایی با یک تیم پلتفرم که از قبل سرویس‌های زیادی را اجرا می‌کند، با هزینه اضافه کمتری روبه‌رو می‌شوند. زیرساخت برای آن‌ها هزینه‌ای ثابت است.

برای بقیه — تیم‌های انطباق، استارتاپ‌ها، تیم‌های بدون DevOps — SaaS مدیریت‌شده انتخاب روشن است. برای نحوه پوشش پردازش میزبانی با نیازهای سازمانی، مرور انطباق امنیتی را ببینید.

نتیجه‌گیری

ابزارهای متن‌باز هزینه‌هایی دارند که در مجوز نشان نمی‌دهند. برای این نوع ابزار، هزینه بزرگ زمان مهندسی است. راه‌اندازی: ۴۰ تا ۸۰ ساعت. نگهداری سالانه: ۶۰ تا ۱۲۰ ساعت. با نرخ‌های معمول، مسیر خود-میزبان ۲۰ تا ۷۵ برابر بیشتر از یک سرویس مدیریت‌شده هزینه دارد.

سوال درست این نیست: «نرم‌افزار چقدر هزینه دارد؟» این است: «اجرای آن چقدر هزینه دارد؟» برای اکثر تیم‌ها، آن پاسخ به SaaS مدیریت‌شده اشاره می‌کند.

منابع

Microsoft Presidio GitHub: مشکلات و مستندات راه‌اندازی. تأییدشده-خارجی.

Ploomber: راهنمای استقرار تولیدی Presidio. تأییدشده-خارجی.

GDPR ماده ۳۲: اقدامات فنی برای امنیت مناسب. تأییدشده-خارجی.

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.