هزینه واقعی تشخیص «رایگان» PII
«رایگان است» تحلیل هزینه نیست. قیمت مجوز است — یک عامل از میان عوامل بسیار.
Microsoft Presidio برای دانلود €۰ هزینه دارد. نرمافزار متنباز است. اما اجرای آن در یک شرکت بیمه در سال اول بیش از €۱۳٬۰۰۰ هزینه دارد. این شکاف زمان مهندسی است.
یک استقرار تولیدی به چه چیزی نیاز دارد
آماده کردن ابزار برای تولید ۴۰ تا ۸۰ ساعت طول میکشد. این زمان به اینگونه صرف میشود.
راهاندازی Docker: ۴ تا ۸ ساعت. ابزار از چندین کانتینر استفاده میکند. یک سرویس تحلیلگر، یک سرویس ناشناسساز، و یک ویرایشگر تصویر اختیاری. وادار کردن آنها به ارتباط با یکدیگر سخت است. مشکلات GitHub نشان میدهد این نقطه شکست رایجی است.
راهاندازی Python: ۲ تا ۴ ساعت. کتابخانهها قوانین نسخه سختگیرانهای دارند. تعارضات رایج هستند — بهویژه بین نسخههای مدل spaCy و Python 3.8/3.9/3.10. GitHub صدها مشکل باز در این موضوع نشان میدهد.
دانلود مدل زبانی: ۲ تا ۴ ساعت. مدلهای spaCy از ۳۰۰ مگابایت تا ۱.۴ گیگابایت هر کدام متغیر هستند. یک راهاندازی پنجزبانه به ۱.۵ تا ۷ گیگابایت فضای ذخیرهسازی نیاز دارد. خرابیهای بارگذاری مدل از رایجترین مشکلات پشتیبانی هستند.
تشخیصدهندههای سفارشی: ۸ تا ۱۶ ساعت. مجموعه پیشفرض حدود ۴۰ نوع موجودیت را پوشش میدهد. بیشترشان شناسههای آمریکایی هستند. استقرارهای اتحادیه اروپا به شناسههای ملی اروپایی نیاز دارند. تیمهای بهداشت و درمان به فرمتهای پرونده پزشکی نیاز دارند. هر نوع به کد Python، تنظیم YAML، و آزمایش نیاز دارد.
راهاندازی API: ۴ تا ۸ ساعت. پیکربندی تولید شامل timeout، احراز هویت، محدودیت نرخ، و logging است. مستندات رسمی نازک است. اکثر تیمها پاسخها را در threadهای مشکل GitHub پیدا میکنند.
ثبت حسابرسی: ۴ تا ۸ ساعت. GDPR نیازمند سوابق پردازش داده است. ابزار بهطور پیشفرض هیچ لاگ حسابرسی ندارد. تیمها باید آن را به عنوان کد سفارشی بنویسند.
مستندات تیم: ۴ تا ۸ ساعت.
مجموع راهاندازی اولیه: ۲۸ تا ۵۲ ساعت در €۱۰۰ در ساعت = €۲٬۸۰۰ تا €۵٬۲۰۰.
هزینههای نگهداری سالانه
ابزار ۲ تا ۴ بار در سال بهروزرسانی ارسال میکند. نسخههای اصلی APIها را شکستهاند. همگام ماندن یعنی پیگیری تغییرات، آزمایش در staging، و استقرار.
بهروزرسانیهای مدل spaCy هم کار اضافه میآورند. نسخههای جدید مدل قبل از زنده شدن نیاز به دانلود مجدد و بررسی دقت دارند.
تعارضات وابستگی Python ادامه دارند. یک راهاندازی تمیز امروز ممکن است وقتی یک وصله امنیتی ماه آینده ارسال میشود بشکند.
نظارت هم مستمر است. سلامت کانتینر، نشت حافظه، و مراحل راهاندازی مجدد همه نیاز به توجه منظم دارند. مدلهای spaCy حافظهبر هستند.
مجموع نگهداری سالانه: ۶۰ تا ۱۲۰ ساعت در €۱۰۰ در ساعت = €۶٬۰۰۰ تا €۱۲٬۰۰۰.
مطالعه موردی از دنیای واقعی
یک تیم انطباق در یک شرکت بیمه برای پردازش اسناد ادعا تصمیم گرفت. دو مهندس داده ارشد داشتند و هیچ پشتیبانی DevOps نداشتند.
هفته ۱. دو کانتینر اصلی نمیتوانستند با یکدیگر ارتباط برقرار کنند. سه روز برای رفع با کمک از GitHub.
هفته ۲. مدلها در تولید بارگذاری نشدند. پیکربندی حافظه با راهاندازی dev متفاوت بود. دو روز برای تشخیص، یک روز دیگر برای رفع.
هفته ۳. یک قانون سفارشی شماره بیمه ملی UK در آزمایشها کار کرد اما روی اسناد واقعی مثبت کاذب داشت. دو روز دیگر تنظیم.
هفته ۴. پروژه تشدید یافت. سه هفته مهندسی صرف شد. هنوز در تولید نبود.
سپس تیم anonym.legal را امتحان کرد. اولین سند پردازششده: ۱۲ دقیقه پس از ثبتنام. تشخیص شماره بیمه ملی UK از قبل ساخته شده بود. هیچ راهاندازی نیاز نبود.
آنها به anonym.legal Professional در €۱۸۰ در سال منتقل شدند.
TCO سال اول:
- مسیر خود-میزبان — ۴۰ تا ۸۰ ساعت بیشتر برای تکمیل، سپس €۶٬۰۰۰ تا €۱۲٬۰۰۰ در سال برای نگهداری. مجموع: €۱۰٬۰۰۰ تا €۲۰٬۰۰۰.
- anonym.legal Professional — €۱۸۰ در سال. زمان استقرار: ~۱۲ دقیقه.
- ساعات مهندسی ذخیرهشده: ~۱۳۲ در سال در €۱۰۰ در ساعت = €۱۳٬۲۰۰.
این در سال اول یک شکاف هزینهای ۷۰ برابری است.
برای تیمهایی که با مشکلات مثبت کاذب روبهرو هستند، پست ما درباره مشکل دقت Presidio را ببینید.
زمانی که خود-میزبانی منطقی است
SaaS مدیریتشده برای اکثر تیمها برنده میشود. اما خود-میزبانی برخی موارد را پوشش میدهد.
حاکمیت داده. برخی قوانین یا قراردادها ارسال داده به خارج را ممنوع میکنند. برنامه Desktop ما (anonym.plus) کاملاً آفلاین کار میکند. هیچ دادهای ماشین را ترک نمیکند. همان دقت، بدون نیاز به سرور.
حجم بسیار بالا. میلیونها فراخوانی API در روز میتوانند قیمتگذاری per-call را بالاتر از هزینههای سرور ببرند. در آن مقیاس، داشتن stack منطقی است.
یکپارچهسازی محصول. آیا تشخیص PII را در محصول خودتان میسازید و به کنترل کامل نیاز دارید؟ کار متنباز سفارشی اینجا معتبر است.
DevOps موجود. تیمهایی با یک تیم پلتفرم که از قبل سرویسهای زیادی را اجرا میکند، با هزینه اضافه کمتری روبهرو میشوند. زیرساخت برای آنها هزینهای ثابت است.
برای بقیه — تیمهای انطباق، استارتاپها، تیمهای بدون DevOps — SaaS مدیریتشده انتخاب روشن است. برای نحوه پوشش پردازش میزبانی با نیازهای سازمانی، مرور انطباق امنیتی را ببینید.
نتیجهگیری
ابزارهای متنباز هزینههایی دارند که در مجوز نشان نمیدهند. برای این نوع ابزار، هزینه بزرگ زمان مهندسی است. راهاندازی: ۴۰ تا ۸۰ ساعت. نگهداری سالانه: ۶۰ تا ۱۲۰ ساعت. با نرخهای معمول، مسیر خود-میزبان ۲۰ تا ۷۵ برابر بیشتر از یک سرویس مدیریتشده هزینه دارد.
سوال درست این نیست: «نرمافزار چقدر هزینه دارد؟» این است: «اجرای آن چقدر هزینه دارد؟» برای اکثر تیمها، آن پاسخ به SaaS مدیریتشده اشاره میکند.
منابع
Microsoft Presidio GitHub: مشکلات و مستندات راهاندازی. تأییدشده-خارجی.
Ploomber: راهنمای استقرار تولیدی Presidio. تأییدشده-خارجی.
GDPR ماده ۳۲: اقدامات فنی برای امنیت مناسب. تأییدشده-خارجی.