By · Last updated 2026-04-01

חזרה לבלוגטכני

זיהוי PII בערבית ועברית: כלים מערביים נכשלים

ה-GDPR לא נגמר בבוספורוס. מידע מזהה אישי בערבית ובעברית בתהליכי עבודה של חברות אירופאיות נותר חשוף בשיטתיות. זיהוי רב-לשוני מבוסס XLM-RoBERTa ועיבוד RTL הם הפתרון.

April 1, 20268 דקות קריאה
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

פער הציות ל-RTL

ה-GDPR לא נגמר בבוספורוס. לחברות אירופאיות שמשתמשות בכלים המיועדים לכתב לטיני יש נקודה עיוורת. זו נקודה עיוורת אמיתית, שלרוב מתעלמים ממנה לחלוטין.

הבעיה אינה רק כיוון הטקסט. כתבים מימין לשמאל דורשים טוקניזציה שונה. הם דורשים פילוח שונה. גבולות ישויות פועלים אחרת מאשר בטקסט LTR. מערכות NER שאומנו על אנגלית מיישמות כללי LTR. כללים אלה מתפרקים על טקסט RTL ומייצרים גבולות ישויות שגויים.

מורפולוגיית הערבית מסבכת את הדברים עוד יותר. השפה מבוססת שורשים. שורש אחד מניב עשרות צורות מילה. שם כמו מוחמד יכול להופיע כ-"אל-מוחמד", "בן מוחמד" או "מוחמד אל-ראשיד". תבניות regex שנבנו לשמות מערביים מפספסות צורות אלה. גם מודלים שאומנו על אנגלית מפספסים אותן.

ה-GDPR אינו מתייחס לשפה כגבול ציות. חברה אירופאית שמעבדת דואר לקוחות מלקוחות MENA חייבת לעמוד באותן דרישות כמו עבור דואר צרפתי. החמצת PII בטקסט RTL היא כשל משפטי במסגרת סעיף 32 ל-GDPR.

מקרה השימוש: KYC

חברת פינטק בדובאי שמעבדת מסמכי KYC ללקוחות אירופאים ממחישה זאת בבירור.

תיקי KYC ללקוחות ערביים כוללים שמות בכתב RTL, תעודות זהות של איחוד האמירויות ועוד כתובות RTL. אלה מופיעים לצד טקסט עסקי באנגלית.

פורמט תעודת הזהות האמירתית הוא 784-XXXX-XXXXXXX-X: קוד מדינה 784, שנת לידה, שבע ספרות, ספרת ביקורת. כלי PII מערביים ללא הגדרות ישויות של איחוד האמירויות אינם יכולים לזהות פורמט זה. שדות השם עוברים דרך NER לכתב לטיני. הפילוח שגוי. ה-PII הופך לבלתי נראה בתהליך העבודה.

לחברות שיש להן חובות GDPR על נתונים אלה, הפער יוצר סיכון משפטי ממשי. סעיף 32 ל-GDPR דורש אמצעים טכניים מתאימים. כלי שמפספס מזהים ב-22% משפות העולם אינו אמצעי מתאים.

עברית ומסמכים רב-לשוניים

עברית מציגה בעיות דומות. הכתב רץ מימין לשמאל. מספרי תעודת זהות ישראליים משתמשים בסכום ביקורת — בדיקה דמוית לוהן על תשע ספרות.

מסמכים משפטיים ישראליים כוללים לעיתים קרובות עברית, טקסט בערבית ואנגלית באותו קובץ. זה נפוץ בחוזים שבהם עברית היא השפה הראשית ומונחים אנגליים נוספים בהפניה.

קבצים רב-כתביים דורשים זיהוי סקריפט לפני NER. ללא זה, מעבר NER בודד מיישם כללים לטיניים על כתבי RTL. הפלט שגוי.

מחקר ב-Nature Scientific Reports (2025) בדק NER רב-לשוני על PII מסוג RTL. מודלים סטנדרטיים קיבלו ציון F1 של 0.60–0.83. XLM-RoBERTa שעבר כוונון עדין על נתוני NER מסוג RTL קיבל 0.88 ומעלה.

דרישת ארכיטקטורה רב-לשונית

זיהוי PII טוב ב-RTL דורש שלושה דברים שבדרך כלל חסרים בכלים שנבנו תחילה למערב.

טיפול בטקסט RTL: תאימות Unicode דו-כיוונית לזרימת טקסט נכונה. טוקניזציה מודעת RTL שמוצאת גבולות מילים בטקסט מימין לשמאל.

NER מודע למורפולוגיה: מנתח מורפולוגי כמו Farasa לערבית, או מודל טרנספורמר שעבר כוונון עדין על נתוני NER מסוג RTL. המודל חייב ללמוד שינויים מורפולוגיים.

סוגי ישויות ספציפיים לאזור: תעודת זהות אמירתית, תעודת זהות ישראלית, תעודת זהות סעודית ותעודת זהות מצרית — כל אחת דורשת הגדרות מפורשות עם כללי פורמט. לכלים מערביים גנריים אין אלה.

ראו כיצד צינור ה-NER הרב-לשוני שלנו מטפל בזיהוי סקריפט ב-48 שפות. לרשימה המלאה של סוגי מזהי MENA הנתמכים, בקרו בקטלוג הישויות. מדריך ציות ה-GDPR שלנו מכסה כיצד פערי זיהוי יוצרים חשיפה לסעיף 32.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.