By · Last updated 2026-06-05

חזרה לבלוגטכני

זיהוי PII "חינמי" עולה €13,000 לשנה

הפעלת Presidio עצמאית דורשת 40–80 שעות הגדרה ראשונית ו-5–10 שעות תחזוקה חודשית. בתעריף הנדסי של €100/שעה, זה מסתכם ב-€13,200 ויותר.

June 5, 20267 דקות קריאה
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

העלות האמיתית של זיהוי PII "חינמי"

"זה חינמי" אינו ניתוח עלות. זה מחיר רישיון — גורם אחד מיני רבים.

Microsoft Presidio עולה €0 להורדה. התוכנה היא קוד פתוח. אך הפעלתו בחברת ביטוח עולה מעל €13,000 בשנה הראשונה. הפער הזה הוא זמן הנדסה.

מה דרוש לפריסה בייצור

הכנת הכלי לייצור לוקחת 40–80 שעות. כך מתחלק הזמן הזה.

הגדרת Docker: 4–8 שעות. הכלי משתמש במספר קונטיינרים. שירות מנתח, שירות אנונימיזציה, ומחיק תמונות אופציונלי. גרימתם לתקשר זה עם זה קשה. בעיות GitHub מראות שזהו נקודת כשל נפוצה.

הגדרת Python: 2–4 שעות. לספריות יש כללי גרסאות קפדניים. קונפליקטים נפוצים — במיוחד בין גרסאות מודל spaCy ל-Python 3.8/3.9/3.10. GitHub מציג מאות בעיות פתוחות בנושא זה.

הורדות מודלי שפה: 2–4 שעות. מודלי spaCy נעים בין 300 MB ל-1.4 GB כל אחד. הגדרה של חמש שפות דורשת 1.5–7 GB אחסון. כשלי טעינת מודל הם מבין בעיות התמיכה הנפוצות ביותר.

מזהים מותאמים אישית: 8–16 שעות. הסט ברירת המחדל מכסה כ-40 סוגי ישויות. רובם הם מזהים אמריקאיים. פריסות אירופיות דורשות מזהים לאומיים אירופיים. צוותי בריאות דורשים פורמטי רשומה רפואית. כל סוג דורש קוד Python, הגדרת YAML ובדיקות.

הגדרת API: 4–8 שעות. הגדרת ייצור כוללת פסקי זמן, אימות, הגבלות קצב ורישום. המסמכים הרשמיים דלים. רוב הצוותים מוצאים תשובות בשרשורי בעיות GitHub.

רישום ביקורת: 4–8 שעות. GDPR דורש רשומות של עיבוד נתונים. לכלי אין יומן ביקורת כברירת מחדל. הצוותים צריכים לכתוב אותו כקוד מותאם אישית.

תיעוד צוות: 4–8 שעות.

סה"כ הגדרה ראשונית: 28–52 שעות בתעריף €100/שעה = €2,800–5,200.

עלויות תחזוקה שנתיות

הכלי משחרר עדכונים 2–4 פעמים בשנה. גרסאות מג'ור שברו APIs. לעקוב אחריהן פירושו מעקב אחר שינויים, בדיקה בסביבת staging ופריסה.

עדכוני מודל spaCy מוסיפים עבודה גם הם. גרסאות מודל חדשות דורשות הורדה מחדש ובדיקות דיוק לפני העלייה לייצור.

קונפליקטי תלויות Python ממשיכים. הגדרה נקייה כיום עלולה להישבר כאשר תיקון אבטחה ישוחרר בחודש הבא.

ניטור הוא גם עבודה שוטפת. בריאות קונטיינרים, דליפות זיכרון וצעדי הפעלה מחדש כולם דורשים תשומת לב קבועה. מודלי spaCy כבדים בזיכרון.

סה"כ תחזוקה שנתית: 60–120 שעות בתעריף €100/שעה = €6,000–12,000.

מקרה מחקר מהשטח

צוות ציות בחברת ביטוח החל לעבד מסמכי תביעות. היו להם שני מהנדסי נתונים זוטרים וללא תמיכת DevOps.

שבוע 1. שני הקונטיינרים הראשיים לא יכלו לתקשר. שלושה ימים לתיקון בעזרת GitHub.

שבוע 2. מודלים נכשלו בטעינה בייצור. הגדרת הזיכרון הייתה שונה מהגדרת הפיתוח. יומיים לאבחון, יום נוסף לתיקון.

שבוע 3. כלל מספר הביטוח הלאומי הבריטי עבד בבדיקות אך הניב false positives על מסמכים אמיתיים. שני ימים נוספים של כיוון.

שבוע 4. הפרויקט הוסלם. שלושה שבועות הנדסה בוזבזו. עדיין לא בייצור.

הצוות ניסה אז את anonym.legal. המסמך הראשון עובד: 12 דקות לאחר ההרשמה. זיהוי מספר הביטוח הלאומי הבריטי כבר היה מובנה. אין צורך בהגדרה.

הם עברו ל-anonym.legal Professional ב-€180/שנה.

TCO שנה ראשונה:

  • נתיב עצמאי — עוד 40–80 שעות לסיום, ואז €6,000–12,000/שנה לתחזוקה. סה"כ: €10,000–20,000.
  • anonym.legal Professional — €180/שנה. זמן פריסה: ~12 דקות.
  • שעות הנדסה שנחסכו: ~132/שנה בתעריף €100/שעה = €13,200.

זהו פער עלות של פי 70 בשנה הראשונה.

לצוותים שמתמודדים גם עם בעיות false positive, ראו את הפוסט שלנו על בעיית הדיוק של Presidio.

מתי אירוח עצמי הגיוני

SaaS מנוהל מנצח לרוב הצוותים. אך אירוח עצמי מתאים לחלק מהמקרים.

ריבונות נתונים. חלק מהכללים או החוזים אוסרים שליחת נתונים החוצה. האפליקציה לשולחן העבודה (anonym.plus) פועלת לגמרי במצב לא מקוון. אין נתונים שיוצאים מהמכונה. אותה דיוק, ללא שרת.

נפח גבוה מאוד. מיליוני קריאות API ביום יכולות לדחוף תמחור לפי-קריאה מעל עלויות שרת. בקנה מידה כזה, הבעלות על המחסנית הגיונית.

שילוב מוצר. בניית זיהוי PII לתוך המוצר שלכם ודרוש לכם שליטה מלאה? עבודה מותאמת קוד פתוח תקפה כאן.

DevOps קיים. צוותים עם צוות פלטפורמה שכבר מפעיל שירותים רבים עומדים בפני עלות נוספת נמוכה יותר. תשתית היא עלות שקועה עבורם.

לכולם האחרים — צוותי ציות, סטארטאפים, צוותים ללא DevOps — SaaS מנוהל הוא הבחירה הברורה. ראו את סקירת ציות האבטחה שלנו לגבי כיצד עיבוד מארוח עומד בדרישות ארגוניות.

סיכום

לכלי קוד פתוח יש עלויות שאינן מופיעות ברישיון. עבור כלי מסוג זה, העלות הגדולה היא זמן הנדסה. הגדרה: 40–80 שעות. תחזוקה שנתית: 60–120 שעות. בתעריפים רגילים, הנתיב העצמאי עולה 20–75 פעמים יותר מאשר שירות מנוהל.

השאלה הנכונה אינה "כמה עולה התוכנה?" היא "כמה עולה להפעיל אותה?" לרוב הצוותים, התשובה לשאלה זו מצביעה על SaaS מנוהל.

מקורות

Microsoft Presidio GitHub: בעיות ותיעוד הגדרות. VERIFIED-EXTERNAL.

Ploomber: מדריך פריסת Presidio לייצור. VERIFIED-EXTERNAL.

GDPR Article 32: אמצעים טכניים לאבטחה מתאימה. VERIFIED-EXTERNAL.

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.