By · Last updated 2026-06-05

חזרה לבלוגטכני

Presidio: הגדרה של 3 שבועות לעומת PII מנוהל

ל-Microsoft Presidio אלפי כוכבים ב-GitHub ומאות בעיות פתוחות. מורכבות ההגדרה, תקורת שילוב PySpark ותלויות Python מוסיפות זמן פיתוח משמעותי.

June 5, 20266 דקות קריאה
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: כלי רב-עוצמה, הגדרה ארוכה

עודכן ל-2026.

Microsoft Presidio הוא כלי מוצק לזיהוי PII ומחיקת זהות. אך הוא פרויקט הנדסה גדול. הפעלתו בייצור דורשת מאמץ אמיתי. הקהילה מסכימה על כך.

GitHub Issue #237 הוא דוגמה טובה. אפילו מפתחים מיומנים נתקלים בקונפליקטי סביבה. הם נתקלים בכשלי טעינת מודל ושגיאות API. ימי עבודת debug יכולים לחלוף לפני ריצה עובדת ראשונה.

מה נתוני הקהילה מראים

ל-repo GitHub של Presidio אלפי כוכבים. זה מראה עניין חזק. אך רשימת הבעיות הפתוחות מספרת סיפור אחר.

בעיות סביבה: קונפליקטי גרסאות Python נפוצים. כך גם אי-התאמות מודל spaCy ושגיאות ONNX runtime. בעיות אלו פוגעות במפתחים שעוקבים אחר המסמכים בדיוק.

כשלי טעינת מודל: מודלי spaCy מורידים בסדר אך נכשלים בטעינה בחלק מההגדרות. קונטיינרים והגדרות עם זיכרון נמוך הם נקודות תקלה נפוצות. תיקונן דורש ידע עמוק על פנימיות spaCy.

כשלי API בייצור: המנתח עובד מצוין ב-dev. הוא שובר תחת עומס ייצור. בעיות threading ולחץ זיכרון ממודלי NLP הם הסיבות העיקריות.

תקורת שילוב: הבלוג של Ploomber על framework זה מכסה את התמונה המלאה. הוא משתמש במספר שירותים — המנתח, האנונימיזציה, ומחיק תמונות אופציונלי. חיבורם מוסיף עבודה. העברת נתונים בין שירותים מוסיפה עוד.

המקרה של Microsoft Fabric

מסמכי Microsoft Fabric עצמם מראים את הפער בין "זמין" ל"עובד".

פוסט בלוג של Fabric על PySpark קובע זאת ישירות: ההגדרה "דורשת ניהול תלויות חיצוניות ולוגיקה מותאמת אישית." משתמשי Fabric בחרו פלטפורמת ענן מנוהלת כדי לדלג על עבודה כזאת. אך הוספת כלים חיצוניים מחזירה את המורכבות.

הצעדים להגדרת PySpark הם:

  1. התקנת presidio-analyzer ו-presidio-anonymizer במחברות Fabric.
  2. הורדת מודלי spaCy בסביבת Fabric.
  3. כתיבת עטיפות UDF ב-PySpark למנתח ולאנונימיזציה.
  4. טיפול באריזת מודל spaCy לשימוש בין workers של Spark.
  5. הגדרת זיהוי שפה למערכי נתונים רב-שפתיים.

לכל שלב יש מצבי כשל ידועים. צוותים בנתיב זה מבלים לעתים קרובות שבוע עד שבועיים לפני שהם מעבדים את המסמך הראשון שלהם.

שני נתיבים: עצמאי לעומת מנוהל

הגישה המנוהלת הופכת את אתגר ההגדרה.

נתיב עצמאי:

  1. התקנת Docker.
  2. הגדרת docker-compose.yml.
  3. הורדת מודלי spaCy.
  4. Debug של רשת קונטיינרים.
  5. הגדרת נקודות קצה API.
  6. בדיקת זיהוי ישויות.
  7. תיקון false positives ו-false negatives.
  8. בניית מזהים מותאמים אישית לסוגי ישויות לא-סטנדרטיים.
  9. הוספת רישום ביקורת.
  10. כיוון לעומס ייצור.

זמן למסמך ראשון שעבר מחיקת זהות: שלושה עד עשרים ואחד ימים.

נתיב שירות מנוהל:

  1. יצירת חשבון.
  2. העלאת מסמך או קריאה ל-API.

זמן למסמך ראשון שעבר מחיקת זהות: שתים עשרה דקות.

שני הנתיבים משתמשים באותה גישת זיהוי. הנתיב המנוהל פועל על חומרה שמישהו אחר מתחזק.

מתי אירוח עצמי הגיוני יותר

השירות המנוהל לא מתאים לכל מקרה.

אימון מודל מותאם: חלק מהמקרים דורשים מודלי NER חדשים. שמות תרופות קנייניות או קודי מוצר פנימיים הם דוגמאות. אירוח עצמי נותן לכם את כלי האימון.

עיבוד Spark-native: חלק מה-pipelines דורשים זיהוי PII בתוך מבצע ה-Spark. קריאת API חיצונית מוסיפה latency ששוברת את התבנית הזאת. אירוח עצמי הוא ההתאמה היחידה כאן.

שליטה מלאה: חלק ממדיניות אבטחה חוסמת את כל קריאות ה-API החיצוניות בתוך pipeline נתונים. אפליקציית שולחן העבודה של anonym.legal פועלת לגמרי ללא חיבור לאינטרנט. אירוח עצמי הוא האפשרות המבודדת לחלוטין.

לרוב המקרים — עיבוד מסמכים, workflows של API וכלי ציות — השירות המנוהל מסיר את פרויקט התשתית לחלוטין.

הפעלת שני הנתיבים במקביל

התיר החינמי נותן לכם 200 קרדיטים בחודש. זה מספיק לבדיקת מסמכים אמיתיים. ללא כרטיס אשראי. ללא התחייבות.

הנה גישה מקבילה פשוטה.

שבוע 1: הגדירו את המנתח העצמאי ב-dev. ראו עד כמה הגדרת הייצור תהיה מורכבת.

יום 1, במקביל: צרו חשבון שירות מנוהל. הריצו את אותם מסמכי בדיקה דרך ה-API המנוהל. השוו את התוצאות.

שאלות מפתח:

  • האם השירות המנוהל מזהה את הסוגים שאתם צריכים? הוא מכסה 285+ סוגי ישויות. הבנייה בקוד פתוח מכסה כ-40 כברירת מחדל.
  • האם הדיוק מספיק?
  • האם ה-API מתאים לתבנית שלכם?
  • האם התוכניות מתאימות לנפח ולתקציב שלכם?

אם כן לכולם: השירות המנוהל מסיר את פרויקט התשתית. אם לא: הפערים שתמצאו הם סיבות אמיתיות להישאר עצמאיים.

ראו כיצד צוותים אחרים קיבלו החלטה זו במקרי מחקר שלנו. בדקו אמצעי הגנה ופרטי הגנה בדף האבטחה והציות שלנו. מצאו תשובות לשאלות נפוצות ב-FAQ שלנו.

בקצרה

הגדרה של שלושה שבועות אינה כשל של המסמכים או ה-framework. היא מראה מה תשתית NLP בדרגת ייצור דורשת. האתגרים אמיתיים. הם לוקחים זמן ומיומנות לפתרון.

לצוותים רבים, מחיקת זהות PII היא דרישת ציות. היא אינה משימת הנדסה מרכזית. השירות המנוהל מספק את אותו זיהוי. הוא עושה זאת ללא פרויקט התשתית. שתים עשרה דקות מהרשמה למסמך הראשון שעבר מחיקת זהות שומרת את עלות ההערכה נמוכה מאוד.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.