עודכן ל-2026
בעיית דיוק 22.7%
מחקר 2024 בדק את Microsoft Presidio על קבצים עסקיים. Presidio הוא כלי PII קוד-פתוח. צוותים משפטיים וקבוצות בריאות משתמשים בו באופן נרחב.
המחקר מדד כמה פעמים Presidio היה צודק. מכל הפריטים שהוא סימן כשמות אנשים, כמה היו בפועל שמות אנשים?
התשובה הייתה 22.7%. כ-77 מתוך כל 100 סימונים היו שגויים. המחקר ספר 13,536 סימונים שגויים על פני 4,434 קבצי דגימה.
השגיאות לא היו אקראיות. הן עקבו אחר דפוסים ברורים:
- כינויי גוף מסומנים כאנשים ("I" בתחילת משפט)
- תוויות אוניות מסומנות כאנשים ("ASL Scorpio")
- תוויות חברות מסומנות כאנשים ("Deloitte & Touche")
- מונחי מדינה מסומנים כאנשים ("Argentina", "Singapore")
אף אחד מאלה אינו מקרה קצה נדיר. הם מופיעים בכל פעם שמודל NLP כללי פוגש טקסט ספציפי לתחום. המודל לא נבנה להבחין ביניהם.
מה עולות סימונים שגויים
בעבודה משפטית ובריאות, כל סימון דורש תגובה. צוותים עומדים בפני שלוש אפשרויות. לכולן עלויות אמיתיות.
אפשרות 1: אדם בודק כל סימון. זמן עורך דין ומומחה עולה 200 עד 800 דולר לשעה. בדיוק 22.7%, הנפח עצום. זה אינו ישים בקנה מידה. ראו אוטומציית PII ב-eDiscovery וצמצום עלויות סקירה משפטית לאופן צמיחת עלויות הסקירה עם הנפח.
אפשרות 2: דילוג על סקירה ואמון בפלט. זה גם מסוכן. כאשר 77% מהפריטים "המוסתרים" אינם רגישים, אתה יוצר סיכון משפטי. בתי משפט קנסו עורכי דין על הסתרה יתרה. ראו סנקציות הסתרה יתרה ב-eDiscovery לתיקים מתועדים.
אפשרות 3: העלאת סף הציון. Presidio מאפשר למשתמשים להגדיר score_threshold להורדת סימונים חלשים. מחקר DICOM 2024 בדק זאת ב-0.7 — סף גבוה למדי. התוצאה: 38 מתוך 39 תמונות DICOM עדיין הכילו סימונים שגויים. סף עוזר. הוא לא מתקן את הסיבה השורשית.
מדוע NLP כללי מתקשה כאן
הפער של Presidio נובע מחוסר התאמה בין נתוני אימון לשימוש בעולם האמיתי.
קבצים משפטיים מלאים במונחי אותיות גדולות. שמות תיקים, כותרות חוק וקודי תצוגה נראים כמו נתונים אישיים למודל כללי. הוא מסמן אותם. רובם אינם נתונים אישיים.
קבצי בריאות מוסיפים שמות תרופות, קודי מכשיר ונוטציות קליניות קצרות. "Pt." פירושו Patient. "Dr." פירושו Doctor. אלה גורמים לזיהוי ישויות להיכשל בדרכים שקשה לחזות.
קבצי פיננסים כוללים קודי מוצר, מחרוזות ישויות ומזהים מספריים שנראים כמו SSNs לכלים גנריים. מודל שאינו מכיר את הפורמטים הספציפיים לתחום יחמיץ ויסמן בדרכים שפוגעות הן בדיוק והן ב-recall.
הפתרון אינו ציון סף גבוה יותר. זה הכרה בפורמטים הספציפיים לתחום שאחרת מתבלבלים עם נתונים אישיים. כלים ייעודיים לתחום מבצעים הבחנה זו. כלים כלליים לא.