By · Last updated 2026-06-05

חזרה לבלוגטכני

6 שבועות לעומת 3 ימים: הגדרת PII מנוהלת

צוותי SaaS בתחום הבריאות מבזבזים 6 שבועות על פריסת Presidio עצמאית לייצור לפני המעבר ל-API מנוהל. ה-API המנוהל מחליף את הפריסה כולה.

June 5, 20267 דקות קריאה
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

משישה שבועות של כאב DevOps לשלושה ימי שילוב

עודכן ל-2026.

שישה שבועות. שני מהנדסים. ארבע ניסיונות פריסה כושלים. צוות SaaS אחד בתחום הבריאות השקיע כל זאת בהגדרת Presidio עצמאית. ואז עברו ל-API מנוהל. המעבר לקח 3 ימים.

התווית "חינמי" על תוכנת קוד פתוח מפתה. כך גם ההבטחה לשליטה מלאה. אך העלות האמיתית מתגלה בשעות הנדסה. לא בדמי רישיון.

מה מסמכי Presidio לא מכסים

מסמכי Presidio מכסים היטב הגדרה מקומית. הפעילו שני קונטיינרי Docker. הצביעו את האנונימיזציה על המנתח. זה עובד על המחשב הנייד שלכם.

ייצור הוא סיפור אחר.

קנה מידה: Presidio מקומי פועל כמופע יחיד. ייצור דורש מספר מופעים מאחורי מאזן עומסים, בדיקות תקינות וכשל מדורג. מסמכי Presidio לא מספקים הנחיות בנושא זה. כל צוות פותר את זה לבד.

שימוש בזיכרון: מודלי spaCy נטענים לזיכרון RAM לכל מופע. מודל en_core_web_lg לבדו שוקל 741 MB. תחת לחץ זיכרון, הביצועים יורדים. לאחר מכן התהליך קורס עם שגיאת out-of-memory. ל-Presidio אין הנחיות מובנות לכך.

פסקי זמן: מסמכים גדולים לוקחים יותר זמן. קוד ייצור דורש פסקי זמן הניתנים להגדרה, תגובות פסק זמן בטוחות ולוגיקת retry. כל זאת אינו מתועד ב-Presidio.

כשלי טעינת מודל: בתחת מקביליות גבוהה, מספר workers מנסים לטעון את אותו מודל spaCy בו זמנית. זוהי מצב תחרות. התוצאה היא שגיאות 500 אקראיות שקשה לשחזר. בעיות GitHub של Presidio מתעדות זאת. המסמכים הראשיים אינם.

יומני ביקורת: GDPR ו-HIPAA דורשים רשומות ביקורת לעיבוד PII. ל-Presidio אין רישום מובנה. כל צוות צריך לכתוב את ה-middleware שלו.

גרסאות API: ה-API של Presidio השתנה בין גרסאות. קוד שנבנה עבור Presidio 2.0 עשוי לדרוש עדכונים ל-2.2 ומעלה. קיבוע גרסאות עוזר. אך הוא מוסיף נטל תחזוקה משלו.

שישה שבועות של צוות SaaS בתחום הבריאות

צוות זה בנה אנונימיזציית PHI לתוך pipeline יצוא נתוני מחקר.

שבוע 1: עקבו אחר מסמכי Presidio. פיתוח מקומי עבד. פריסת Kubernetes נכשלה. אתחול ה-pod זרק שגיאות טעינת מודל. הצוות רדף אחר בעיות הגדרת Kubernetes.

שבוע 2: הגדרת Kubernetes תוקנה. טעינת מודל עבדה לפעמים. תחת בדיקת עומס, כ-15% מהבקשות נכשלו עם פסקי זמן של טעינת מודל. הצוות הוסיף לוגיקת retry.

שבוע 3: לוגיקת ה-retry הסתירה את הבעיה השורשית אך עברה בדיקות עומס. סקירת ציות ביקשה יומני ביקורת. הצוות כתב middleware לרישום מותאם אישית.

שבוע 4: סוגי ישויות בריאות — מספרי רשומה רפואית, מזהי תוכנית בריאות — לא כוסו על ידי ברירות המחדל של Presidio. הצוות כתב שני מזהים מותאמים אישית.

שבוע 5: דחפו לייצור. דליפת זיכרון הופיעה. אובייקטי מודל spaCy הצטברו בין בקשות. הצוות הוסיף הפעלה מחדש יומית של pod כפתרון זמני.

שבוע 6: ייצור נכשל תחת תעבורה אמיתית. ההפעלה מחדש היומית גרמה לפערי שירות. הסיבה השורשית הייתה ברורה: דליפת הזיכרון דרשה עיצוב מחדש מג'ורי של האפליקציה או כלי אחר.

הסקירה: מנהל ההנדסה חישב את המספרים. שישה שבועות כפול שני מהנדסים שווים 12 שבועות הנדסה. הפריסה הייתה חיה אך לא יציבה. תחזוקה שוטפת הוערכה ב-5 עד 10 שעות בשבוע.

המעבר: הצוות בדק את anonym.legal API. כיסוי ישויות PHI עבד מהקופסה. אין צורך במזהים מותאמים אישית. זמן פעולה עם SLA. רישום ביקורת כלול. שילוב לקח 3 ימים תוך שימוש בקוד לקוח API הקיים שלהם.

השוואת עלויות:

  • 12 שבועות הנדסה בתעריפי שוק אמריקאיים: $48,000–$72,000
  • תחזוקה שנתית משוערת לפריסה עצמאית: $25,000–$40,000
  • תוכנית Business של anonym.legal: €348 לשנה (כ-$385)

ה-API המנוהל עולה פחות בשבועו הראשון מאשר עלתה הבנייה העצמאית בשעתה הראשונה.

כשנתונים לא יכולים לצאת מהרשת שלכם

חלק מצוותי הבריאות לא יכולים לשלוח נתונים לשום שירות חיצוני. כללי air-gap או מדיניות ריבונות נתונים חוסמים זאת.

למקרים אלה, אפליקציית שולחן העבודה (anonym.plus) מציעה את אותו מנוע בהתקנה מקומית:

  • אותו מנוע זיהוי: Presidio בתוספת XLM-RoBERTa
  • ללא קריאות לשירותים חיצוניים
  • עיבוד batch לפתקים קליניים ומערכי נתוני מחקר
  • אין הגדרה מעבר להתקנה
  • ניהול מודל אוטומטי

זה מסיר את ההתנגדות העיקרית ל-SaaS מנוהל: "הנתונים שלנו לא יכולים לצאת." עדיין שומר על הפשטות שהופכת כלים מנוהלים לשווים.

בנה לעומת קנה: מסגרת פשוטה

בחרו ב-API מנוהל כאשר:

  • לצוות שלכם אין מהנדסי תשתית ייעודיים
  • אתם צריכים לשלוח תוך ימים, לא שבועות
  • זמן פעולה עם SLA הוא דרישה
  • השירות המנוהל מכסה את סוגי הישויות שלכם
  • אתם צריכים יומני ביקורת ורשומות ציות כלולים

בחרו אירוח עצמי כאשר:

  • תקנות מונעות יציאת נתונים מהרשת שלכם (בדקו קודם את אפליקציית שולחן העבודה)
  • נפח העיבוד שלכם הופך אירוח עצמי לזול יותר בקנה מידה
  • אתם זקוקים להתאמה אישית עמוקה שה-API לא יכול לתמוך בה
  • יש לכם צוות פלטפורמה שמתייחס לזה כאל אחד משירותים מנוהלים רבים

בחרו באפליקציית שולחן העבודה כאשר:

  • עיבוד לא מקוון נדרש
  • נתוני מחקר רפואי לא יכולים לצאת מסביבה קלינית
  • לנתונים פיננסיים יש מגבלות עיבוד גיאוגרפיות

סיכום

שישה שבועות של זמן הנדסה אינם פגם ב-Presidio. זהו העלות הצפויה של הפעלת כל שירות NLP בדרגת ייצור בעצמכם. קנה מידה, בעיות זיכרון, כשלי טעינת מודל, יומני ביקורת ועבודת ישויות מותאמת — כולם מצטברים מהר.

ממשקי API מנוהלים סופגים את העלות הזאת. לאנונימיזציית PII — צורך ציות, לא תכונת מוצר — הנתיב המנוהל כמעט תמיד מנצח בסך כל עלות הבעלות.

קראו כיצד anonym.legal API מטפל בזיהוי PHI. ראו פרטי ציות מלאים בסקירת האבטחה שלנו. השוו תוכניות בדף התמחור שלנו.

מקורות

  • Ploomber: Presidio Production Deployment Deep Dive — ploomber.io.
  • Microsoft Fabric Community: Presidio with PySpark — blog.fabric.microsoft.com.
  • Presidio GitHub: Production Deployment Issues — github.com/microsoft/presidio/issues.

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.