העלות האמיתית של זיהוי PII "חינמי"
"זה חינמי" אינו ניתוח עלות. זה מחיר רישיון — גורם אחד מיני רבים.
Microsoft Presidio עולה €0 להורדה. התוכנה היא קוד פתוח. אך הפעלתו בחברת ביטוח עולה מעל €13,000 בשנה הראשונה. הפער הזה הוא זמן הנדסה.
מה דרוש לפריסה בייצור
הכנת הכלי לייצור לוקחת 40–80 שעות. כך מתחלק הזמן הזה.
הגדרת Docker: 4–8 שעות. הכלי משתמש במספר קונטיינרים. שירות מנתח, שירות אנונימיזציה, ומחיק תמונות אופציונלי. גרימתם לתקשר זה עם זה קשה. בעיות GitHub מראות שזהו נקודת כשל נפוצה.
הגדרת Python: 2–4 שעות. לספריות יש כללי גרסאות קפדניים. קונפליקטים נפוצים — במיוחד בין גרסאות מודל spaCy ל-Python 3.8/3.9/3.10. GitHub מציג מאות בעיות פתוחות בנושא זה.
הורדות מודלי שפה: 2–4 שעות. מודלי spaCy נעים בין 300 MB ל-1.4 GB כל אחד. הגדרה של חמש שפות דורשת 1.5–7 GB אחסון. כשלי טעינת מודל הם מבין בעיות התמיכה הנפוצות ביותר.
מזהים מותאמים אישית: 8–16 שעות. הסט ברירת המחדל מכסה כ-40 סוגי ישויות. רובם הם מזהים אמריקאיים. פריסות אירופיות דורשות מזהים לאומיים אירופיים. צוותי בריאות דורשים פורמטי רשומה רפואית. כל סוג דורש קוד Python, הגדרת YAML ובדיקות.
הגדרת API: 4–8 שעות. הגדרת ייצור כוללת פסקי זמן, אימות, הגבלות קצב ורישום. המסמכים הרשמיים דלים. רוב הצוותים מוצאים תשובות בשרשורי בעיות GitHub.
רישום ביקורת: 4–8 שעות. GDPR דורש רשומות של עיבוד נתונים. לכלי אין יומן ביקורת כברירת מחדל. הצוותים צריכים לכתוב אותו כקוד מותאם אישית.
תיעוד צוות: 4–8 שעות.
סה"כ הגדרה ראשונית: 28–52 שעות בתעריף €100/שעה = €2,800–5,200.
עלויות תחזוקה שנתיות
הכלי משחרר עדכונים 2–4 פעמים בשנה. גרסאות מג'ור שברו APIs. לעקוב אחריהן פירושו מעקב אחר שינויים, בדיקה בסביבת staging ופריסה.
עדכוני מודל spaCy מוסיפים עבודה גם הם. גרסאות מודל חדשות דורשות הורדה מחדש ובדיקות דיוק לפני העלייה לייצור.
קונפליקטי תלויות Python ממשיכים. הגדרה נקייה כיום עלולה להישבר כאשר תיקון אבטחה ישוחרר בחודש הבא.
ניטור הוא גם עבודה שוטפת. בריאות קונטיינרים, דליפות זיכרון וצעדי הפעלה מחדש כולם דורשים תשומת לב קבועה. מודלי spaCy כבדים בזיכרון.
סה"כ תחזוקה שנתית: 60–120 שעות בתעריף €100/שעה = €6,000–12,000.
מקרה מחקר מהשטח
צוות ציות בחברת ביטוח החל לעבד מסמכי תביעות. היו להם שני מהנדסי נתונים זוטרים וללא תמיכת DevOps.
שבוע 1. שני הקונטיינרים הראשיים לא יכלו לתקשר. שלושה ימים לתיקון בעזרת GitHub.
שבוע 2. מודלים נכשלו בטעינה בייצור. הגדרת הזיכרון הייתה שונה מהגדרת הפיתוח. יומיים לאבחון, יום נוסף לתיקון.
שבוע 3. כלל מספר הביטוח הלאומי הבריטי עבד בבדיקות אך הניב false positives על מסמכים אמיתיים. שני ימים נוספים של כיוון.
שבוע 4. הפרויקט הוסלם. שלושה שבועות הנדסה בוזבזו. עדיין לא בייצור.
הצוות ניסה אז את anonym.legal. המסמך הראשון עובד: 12 דקות לאחר ההרשמה. זיהוי מספר הביטוח הלאומי הבריטי כבר היה מובנה. אין צורך בהגדרה.
הם עברו ל-anonym.legal Professional ב-€180/שנה.
TCO שנה ראשונה:
- נתיב עצמאי — עוד 40–80 שעות לסיום, ואז €6,000–12,000/שנה לתחזוקה. סה"כ: €10,000–20,000.
- anonym.legal Professional — €180/שנה. זמן פריסה: ~12 דקות.
- שעות הנדסה שנחסכו: ~132/שנה בתעריף €100/שעה = €13,200.
זהו פער עלות של פי 70 בשנה הראשונה.
לצוותים שמתמודדים גם עם בעיות false positive, ראו את הפוסט שלנו על בעיית הדיוק של Presidio.
מתי אירוח עצמי הגיוני
SaaS מנוהל מנצח לרוב הצוותים. אך אירוח עצמי מתאים לחלק מהמקרים.
ריבונות נתונים. חלק מהכללים או החוזים אוסרים שליחת נתונים החוצה. האפליקציה לשולחן העבודה (anonym.plus) פועלת לגמרי במצב לא מקוון. אין נתונים שיוצאים מהמכונה. אותה דיוק, ללא שרת.
נפח גבוה מאוד. מיליוני קריאות API ביום יכולות לדחוף תמחור לפי-קריאה מעל עלויות שרת. בקנה מידה כזה, הבעלות על המחסנית הגיונית.
שילוב מוצר. בניית זיהוי PII לתוך המוצר שלכם ודרוש לכם שליטה מלאה? עבודה מותאמת קוד פתוח תקפה כאן.
DevOps קיים. צוותים עם צוות פלטפורמה שכבר מפעיל שירותים רבים עומדים בפני עלות נוספת נמוכה יותר. תשתית היא עלות שקועה עבורם.
לכולם האחרים — צוותי ציות, סטארטאפים, צוותים ללא DevOps — SaaS מנוהל הוא הבחירה הברורה. ראו את סקירת ציות האבטחה שלנו לגבי כיצד עיבוד מארוח עומד בדרישות ארגוניות.
סיכום
לכלי קוד פתוח יש עלויות שאינן מופיעות ברישיון. עבור כלי מסוג זה, העלות הגדולה היא זמן הנדסה. הגדרה: 40–80 שעות. תחזוקה שנתית: 60–120 שעות. בתעריפים רגילים, הנתיב העצמאי עולה 20–75 פעמים יותר מאשר שירות מנוהל.
השאלה הנכונה אינה "כמה עולה התוכנה?" היא "כמה עולה להפעיל אותה?" לרוב הצוותים, התשובה לשאלה זו מצביעה על SaaS מנוהל.
מקורות
Microsoft Presidio GitHub: בעיות ותיעוד הגדרות. VERIFIED-EXTERNAL.
Ploomber: מדריך פריסת Presidio לייצור. VERIFIED-EXTERNAL.
GDPR Article 32: אמצעים טכניים לאבטחה מתאימה. VERIFIED-EXTERNAL.