פער הציות ל-RTL

ה-GDPR לא נגמר בבוספורוס. לחברות אירופאיות שמשתמשות בכלים המיועדים לכתב לטיני יש נקודה עיוורת. זו נקודה עיוורת אמיתית, שלרוב מתעלמים ממנה לחלוטין.

הבעיה אינה רק כיוון הטקסט. כתבים מימין לשמאל דורשים טוקניזציה שונה. הם דורשים פילוח שונה. גבולות ישויות פועלים אחרת מאשר בטקסט LTR. מערכות NER שאומנו על אנגלית מיישמות כללי LTR. כללים אלה מתפרקים על טקסט RTL ומייצרים גבולות ישויות שגויים.

מורפולוגיית הערבית מסבכת את הדברים עוד יותר. השפה מבוססת שורשים. שורש אחד מניב עשרות צורות מילה. שם כמו מוחמד יכול להופיע כ-"אל-מוחמד", "בן מוחמד" או "מוחמד אל-ראשיד". תבניות regex שנבנו לשמות מערביים מפספסות צורות אלה. גם מודלים שאומנו על אנגלית מפספסים אותן.

ה-GDPR אינו מתייחס לשפה כגבול ציות. חברה אירופאית שמעבדת דואר לקוחות מלקוחות MENA חייבת לעמוד באותן דרישות כמו עבור דואר צרפתי. החמצת PII בטקסט RTL היא כשל משפטי במסגרת סעיף 32 ל-GDPR.

מקרה השימוש: KYC

חברת פינטק בדובאי שמעבדת מסמכי KYC ללקוחות אירופאים ממחישה זאת בבירור.

תיקי KYC ללקוחות ערביים כוללים שמות בכתב RTL, תעודות זהות של איחוד האמירויות ועוד כתובות RTL. אלה מופיעים לצד טקסט עסקי באנגלית.

פורמט תעודת הזהות האמירתית הוא 784-XXXX-XXXXXXX-X: קוד מדינה 784, שנת לידה, שבע ספרות, ספרת ביקורת. כלי PII מערביים ללא הגדרות ישויות של איחוד האמירויות אינם יכולים לזהות פורמט זה. שדות השם עוברים דרך NER לכתב לטיני. הפילוח שגוי. ה-PII הופך לבלתי נראה בתהליך העבודה.

לחברות שיש להן חובות GDPR על נתונים אלה, הפער יוצר סיכון משפטי ממשי. סעיף 32 ל-GDPR דורש אמצעים טכניים מתאימים. כלי שמפספס מזהים ב-22% משפות העולם אינו אמצעי מתאים.

עברית ומסמכים רב-לשוניים

עברית מציגה בעיות דומות. הכתב רץ מימין לשמאל. מספרי תעודת זהות ישראליים משתמשים בסכום ביקורת — בדיקה דמוית לוהן על תשע ספרות.

מסמכים משפטיים ישראליים כוללים לעיתים קרובות עברית, טקסט בערבית ואנגלית באותו קובץ. זה נפוץ בחוזים שבהם עברית היא השפה הראשית ומונחים אנגליים נוספים בהפניה.

קבצים רב-כתביים דורשים זיהוי סקריפט לפני NER. ללא זה, מעבר NER בודד מיישם כללים לטיניים על כתבי RTL. הפלט שגוי.

מחקר ב-Nature Scientific Reports (2025) בדק NER רב-לשוני על PII מסוג RTL. מודלים סטנדרטיים קיבלו ציון F1 של 0.60–0.83. XLM-RoBERTa שעבר כוונון עדין על נתוני NER מסוג RTL קיבל 0.88 ומעלה.

דרישת ארכיטקטורה רב-לשונית

זיהוי PII טוב ב-RTL דורש שלושה דברים שבדרך כלל חסרים בכלים שנבנו תחילה למערב.

טיפול בטקסט RTL: תאימות Unicode דו-כיוונית לזרימת טקסט נכונה. טוקניזציה מודעת RTL שמוצאת גבולות מילים בטקסט מימין לשמאל.

NER מודע למורפולוגיה: מנתח מורפולוגי כמו Farasa לערבית, או מודל טרנספורמר שעבר כוונון עדין על נתוני NER מסוג RTL. המודל חייב ללמוד שינויים מורפולוגיים.

סוגי ישויות ספציפיים לאזור: תעודת זהות אמירתית, תעודת זהות ישראלית, תעודת זהות סעודית ותעודת זהות מצרית — כל אחת דורשת הגדרות מפורשות עם כללי פורמט. לכלים מערביים גנריים אין אלה.

ראו כיצד צינור ה-NER הרב-לשוני שלנו מטפל בזיהוי סקריפט ב-48 שפות. לרשימה המלאה של סוגי מזהי MENA הנתמכים, בקרו בקטלוג הישויות. מדריך ציות ה-GDPR שלנו מכסה כיצד פערי זיהוי יוצרים חשיפה לסעיף 32.

מקורות

מאמרים קשורים

טכני

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

התחל ניסיון חינם צפה בתכונות

זיהוי PII בערבית ועברית: כלים מערביים נכשלים

פער הציות ל-RTL

מקרה השימוש: KYC

עברית ומסמכים רב-לשוניים

דרישת ארכיטקטורה רב-לשונית

מקורות

מאמרים קשורים

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

מוכן להגן על הנתונים שלך?

זיהוי PII בערבית ועברית: כלים מערביים נכשלים

פער הציות ל-RTL

מקרה השימוש: KYC

עברית ומסמכים רב-לשוניים

דרישת ארכיטקטורה רב-לשונית

מקורות

מאמרים קשורים

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

מוכן להגן על הנתונים שלך?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow