פער הציות ל-RTL
ה-GDPR לא נגמר בבוספורוס. לחברות אירופאיות שמשתמשות בכלים המיועדים לכתב לטיני יש נקודה עיוורת. זו נקודה עיוורת אמיתית, שלרוב מתעלמים ממנה לחלוטין.
הבעיה אינה רק כיוון הטקסט. כתבים מימין לשמאל דורשים טוקניזציה שונה. הם דורשים פילוח שונה. גבולות ישויות פועלים אחרת מאשר בטקסט LTR. מערכות NER שאומנו על אנגלית מיישמות כללי LTR. כללים אלה מתפרקים על טקסט RTL ומייצרים גבולות ישויות שגויים.
מורפולוגיית הערבית מסבכת את הדברים עוד יותר. השפה מבוססת שורשים. שורש אחד מניב עשרות צורות מילה. שם כמו מוחמד יכול להופיע כ-"אל-מוחמד", "בן מוחמד" או "מוחמד אל-ראשיד". תבניות regex שנבנו לשמות מערביים מפספסות צורות אלה. גם מודלים שאומנו על אנגלית מפספסים אותן.
ה-GDPR אינו מתייחס לשפה כגבול ציות. חברה אירופאית שמעבדת דואר לקוחות מלקוחות MENA חייבת לעמוד באותן דרישות כמו עבור דואר צרפתי. החמצת PII בטקסט RTL היא כשל משפטי במסגרת סעיף 32 ל-GDPR.
מקרה השימוש: KYC
חברת פינטק בדובאי שמעבדת מסמכי KYC ללקוחות אירופאים ממחישה זאת בבירור.
תיקי KYC ללקוחות ערביים כוללים שמות בכתב RTL, תעודות זהות של איחוד האמירויות ועוד כתובות RTL. אלה מופיעים לצד טקסט עסקי באנגלית.
פורמט תעודת הזהות האמירתית הוא 784-XXXX-XXXXXXX-X: קוד מדינה 784, שנת לידה, שבע ספרות, ספרת ביקורת. כלי PII מערביים ללא הגדרות ישויות של איחוד האמירויות אינם יכולים לזהות פורמט זה. שדות השם עוברים דרך NER לכתב לטיני. הפילוח שגוי. ה-PII הופך לבלתי נראה בתהליך העבודה.
לחברות שיש להן חובות GDPR על נתונים אלה, הפער יוצר סיכון משפטי ממשי. סעיף 32 ל-GDPR דורש אמצעים טכניים מתאימים. כלי שמפספס מזהים ב-22% משפות העולם אינו אמצעי מתאים.
עברית ומסמכים רב-לשוניים
עברית מציגה בעיות דומות. הכתב רץ מימין לשמאל. מספרי תעודת זהות ישראליים משתמשים בסכום ביקורת — בדיקה דמוית לוהן על תשע ספרות.
מסמכים משפטיים ישראליים כוללים לעיתים קרובות עברית, טקסט בערבית ואנגלית באותו קובץ. זה נפוץ בחוזים שבהם עברית היא השפה הראשית ומונחים אנגליים נוספים בהפניה.
קבצים רב-כתביים דורשים זיהוי סקריפט לפני NER. ללא זה, מעבר NER בודד מיישם כללים לטיניים על כתבי RTL. הפלט שגוי.
מחקר ב-Nature Scientific Reports (2025) בדק NER רב-לשוני על PII מסוג RTL. מודלים סטנדרטיים קיבלו ציון F1 של 0.60–0.83. XLM-RoBERTa שעבר כוונון עדין על נתוני NER מסוג RTL קיבל 0.88 ומעלה.
דרישת ארכיטקטורה רב-לשונית
זיהוי PII טוב ב-RTL דורש שלושה דברים שבדרך כלל חסרים בכלים שנבנו תחילה למערב.
טיפול בטקסט RTL: תאימות Unicode דו-כיוונית לזרימת טקסט נכונה. טוקניזציה מודעת RTL שמוצאת גבולות מילים בטקסט מימין לשמאל.
NER מודע למורפולוגיה: מנתח מורפולוגי כמו Farasa לערבית, או מודל טרנספורמר שעבר כוונון עדין על נתוני NER מסוג RTL. המודל חייב ללמוד שינויים מורפולוגיים.
סוגי ישויות ספציפיים לאזור: תעודת זהות אמירתית, תעודת זהות ישראלית, תעודת זהות סעודית ותעודת זהות מצרית — כל אחת דורשת הגדרות מפורשות עם כללי פורמט. לכלים מערביים גנריים אין אלה.
ראו כיצד צינור ה-NER הרב-לשוני שלנו מטפל בזיהוי סקריפט ב-48 שפות. לרשימה המלאה של סוגי מזהי MENA הנתמכים, בקרו בקטלוג הישויות. מדריך ציות ה-GDPR שלנו מכסה כיצד פערי זיהוי יוצרים חשיפה לסעיף 32.