"বিনামূল্যের" PII ডিটেকশনের আসল খরচ
"এটি বিনামূল্যে" একটি খরচ বিশ্লেষণ নয়। এটি একটি লাইসেন্স মূল্য — অনেক কারণের মধ্যে একটি।
Microsoft Presidio ডাউনলোড করতে €০ লাগে। সফটওয়্যারটি ওপেন-সোর্স। কিন্তু একটি বিমা কোম্পানিতে এটি চালাতে প্রথম বছরে €১৩,০০০-এরও বেশি খরচ হয়। সেই ব্যবধান হল ইঞ্জিনিয়ারিং সময়।
প্রোডাকশন ডিপ্লয়মেন্টে কী লাগে
টুলটি প্রোডাকশনের জন্য প্রস্তুত করতে ৪০–৮০ ঘণ্টা লাগে। সময়টা কোথায় যায় তা এখানে দেওয়া হলো।
Docker সেটআপ: ৪–৮ ঘণ্টা। টুলটি বেশ কয়েকটি কন্টেইনার ব্যবহার করে। একটি অ্যানালাইজার সার্ভিস, একটি অ্যানোনিমাইজার সার্ভিস এবং একটি ঐচ্ছিক ইমেজ রিডেক্টর। তাদের পরস্পরের সাথে যোগাযোগ করানো কঠিন। GitHub ইস্যু দেখায় এটি একটি সাধারণ ব্যর্থতার পয়েন্ট।
Python সেটআপ: ২–৪ ঘণ্টা। লাইব্রেরিগুলির কঠোর সংস্করণ নিয়ম রয়েছে। দ্বন্দ্ব সাধারণ — বিশেষত spaCy মডেল সংস্করণ এবং Python 3.8/3.9/3.10-এর মধ্যে। GitHub এই বিষয়ে শত শত খোলা ইস্যু দেখায়।
ভাষা মডেল ডাউনলোড: ২–৪ ঘণ্টা। spaCy মডেল ৩০০ MB থেকে ১.৪ GB পর্যন্ত। পাঁচ-ভাষার সেটআপে ১.৫–৭ GB স্টোরেজ দরকার। মডেল লোডিং ব্যর্থতা সবচেয়ে সাধারণ সাপোর্ট ইস্যুগুলির মধ্যে একটি।
কাস্টম রিকগনাইজার: ৮–১৬ ঘণ্টা। ডিফল্ট সেট প্রায় ৪০টি এন্টিটি টাইপ কভার করে। বেশিরভাগ US পরিচয়কারক। EU ডিপ্লয়মেন্টে ইউরোপীয় জাতীয় আইডি দরকার। স্বাস্থ্যসেবা দলগুলিতে মেডিকেল রেকর্ড ফরম্যাট দরকার। প্রতিটি টাইপে Python কোড, YAML সেটআপ এবং পরীক্ষা দরকার।
API সেটআপ: ৪–৮ ঘণ্টা। প্রোডাকশন কনফিগে টাইমআউট, অথ, রেট লিমিট এবং লগিং অন্তর্ভুক্ত। অফিসিয়াল ডকুমেন্টেশন পাতলা। বেশিরভাগ দল GitHub ইস্যু থ্রেডে উত্তর খুঁজে পায়।
অডিট লগিং: ৪–৮ ঘণ্টা। GDPR ডেটা প্রক্রিয়াকরণের রেকর্ড প্রয়োজন। টুলে ডিফল্টে কোনো অডিট লগ নেই। দলগুলিকে কাস্টম কোড হিসেবে লিখতে হবে।
দলের ডকুমেন্টেশন: ৪–৮ ঘণ্টা।
মোট প্রাথমিক সেটআপ: €১০০/ঘণ্টায় ২৮–৫২ ঘণ্টা = €২,৮০০–৫,২০০।
বার্ষিক রক্ষণাবেক্ষণ খরচ
টুলটি বছরে ২–৪ বার আপডেট পায়। বড় রিলিজ API ভেঙেছে। আপডেট রাখার মানে পরিবর্তন ট্র্যাক করা, স্টেজিংয়ে পরীক্ষা করা এবং ডিপ্লয় করা।
spaCy মডেল আপডেটও কাজ বাড়ায়। নতুন মডেল সংস্করণ পুনরায় ডাউনলোড এবং লাইভ হওয়ার আগে নির্ভুলতা পরীক্ষা করা দরকার।
Python নির্ভরতার দ্বন্দ্ব চলতেই থাকে। আজকের পরিষ্কার সেটআপ পরের মাসে একটি নিরাপত্তা প্যাচ শিপ হলে ভেঙে যেতে পারে।
মনিটরিং চলমান। কন্টেইনার স্বাস্থ্য, মেমরি লিক এবং পুনরায় চালু করার ধাপ সব নিয়মিত মনোযোগ দরকার। spaCy মডেল মেমরি-ভারী।
মোট বার্ষিক রক্ষণাবেক্ষণ: €১০০/ঘণ্টায় ৬০–১২০ ঘণ্টা = €৬,০০০–১২,০০০।
বাস্তব ঘটনার কেস স্টাডি
একটি বিমা ফার্মের কমপ্লায়েন্স দল দাবি ডকুমেন্ট প্রক্রিয়া করতে সেট করে। তাদের দুইজন জুনিয়র ডেটা ইঞ্জিনিয়ার ছিল এবং কোনো DevOps সহায়তা ছিল না।
সপ্তাহ ১। দুটি প্রধান কন্টেইনার পরস্পরের সাথে কথা বলতে পারছিল না। GitHub-এর সাহায্যে ঠিক করতে তিন দিন।
সপ্তাহ ২। মডেল প্রোডাকশনে লোড হতে ব্যর্থ হলো। মেমরি কনফিগ dev সেটআপ থেকে আলাদা ছিল। ডায়াগনোজ করতে দুই দিন, ঠিক করতে আরও একদিন।
সপ্তাহ ৩। একটি কাস্টম UK ন্যাশনাল ইন্স্যুরেন্স নম্বর নিয়ম পরীক্ষায় কাজ করেছিল কিন্তু আসল ডকুমেন্টে মিথ্যা ইতিবাচক দিয়েছিল। আরও দুই দিন টিউনিং।
সপ্তাহ ৪। প্রকল্পটি এস্কেলেট করা হলো। তিন ইঞ্জিনিয়ারিং সপ্তাহ ব্যয় হলো। এখনও প্রোডাকশনে নেই।
দলটি তারপর anonym.legal-এ চেষ্টা করল। সাইনআপের ১২ মিনিট পরে প্রথম ডকুমেন্ট প্রক্রিয়া হলো। UK ন্যাশনাল ইন্স্যুরেন্স নম্বর ডিটেকশন ইতিমধ্যে তৈরি ছিল। কোনো সেটআপ দরকার নেই।
তারা anonym.legal Professional-এ €১৮০/বছরে চলে গেল।
প্রথম বছরের TCO:
- নিজে হোস্ট করার পথ — শেষ করতে ৪০–৮০ ঘণ্টা, তারপর €৬,০০০–১২,০০০/বছর রক্ষণাবেক্ষণ। মোট: €১০,০০০–২০,০০০।
- anonym.legal Professional — €১৮০/বছর। ডিপ্লয় সময়: ~১২ মিনিট।
- সাশ্রয় হওয়া ইঞ্জিনিয়ারিং ঘণ্টা: €১০০/ঘণ্টায় ~১৩২/বছর = €১৩,২০০।
প্রথম বছরে ৭০x খরচের ব্যবধান।
মিথ্যা ইতিবাচক সমস্যার মুখোমুখি দলগুলির জন্য, আমাদের Presidio-এর প্রিসিশন সমস্যার পোস্ট দেখুন।
কখন নিজে হোস্ট করা যুক্তিসঙ্গত
বেশিরভাগ দলের জন্য ম্যানেজড SaaS জেতে। কিন্তু কিছু ক্ষেত্রে নিজে হোস্ট করা মানানসই।
ডেটা সার্বভৌমত্ব। কিছু নিয়ম বা চুক্তি বাইরে ডেটা পাঠানো নিষিদ্ধ করে। আমাদের Desktop App (anonym.plus) সম্পূর্ণ অফলাইনে চলে। কোনো ডেটা মেশিন ছাড়ে না। একই নির্ভুলতা, কোনো সার্ভার দরকার নেই।
খুব বেশি ভলিউম। প্রতিদিন লক্ষ লক্ষ API কল প্রতি-কল মূল্য সার্ভার খরচের উপরে ঠেলতে পারে। সেই স্কেলে, নিজের স্ট্যাক মালিকানা রাখা বোধগম্য।
পণ্য ইন্টিগ্রেশন। নিজের পণ্যে PII ডিটেকশন তৈরি করা এবং সম্পূর্ণ নিয়ন্ত্রণ দরকার? কাস্টম ওপেন-সোর্স কাজ এখানে বৈধ।
বিদ্যমান DevOps। ইতিমধ্যে অনেক সার্ভিস চালানো একটি প্ল্যাটফর্ম দল সহ দলগুলির জন্য যোগ করা খরচ কম। তাদের জন্য অবকাঠামো একটি ডুবন্ত খরচ।
অন্য সবার জন্য — কমপ্লায়েন্স দল, স্টার্টআপ, DevOps ছাড়া দলগুলি — ম্যানেজড SaaS স্পষ্ট পছন্দ। হোস্টেড প্রক্রিয়াকরণ কীভাবে এন্টারপ্রাইজ চাহিদা পূরণ করে তার জন্য আমাদের security compliance overview দেখুন।
উপসংহার
ওপেন-সোর্স টুলের খরচ আছে যা লাইসেন্সে দেখা যায় না। এই ধরনের টুলের জন্য বড় খরচ হল ইঞ্জিনিয়ারিং সময়। সেটআপ: ৪০–৮০ ঘণ্টা। বার্ষিক রক্ষণাবেক্ষণ: ৬০–১২০ ঘণ্টা। স্বাভাবিক রেটে, নিজে হোস্ট করার পথ ম্যানেজড সার্ভিসের চেয়ে ২০–৭৫ গুণ বেশি খরচ হয়।
সঠিক প্রশ্ন হল "সফটওয়্যারের খরচ কত?" নয়। প্রশ্ন হল "এটি চালানোর খরচ কত?" বেশিরভাগ দলের জন্য, সেই উত্তর ম্যানেজড SaaS-এর দিকে নির্দেশ করে।
সূত্র
Microsoft Presidio GitHub: Issues and Setup Documentation.
Ploomber: Presidio Production Deployment Guide.
GDPR Article 32: Technical measures for appropriate security.