By · Last updated 2026-02-26

חזרה לבלוגטכני

NER רב-לשוני: אנגלית נכשלת בערבית

מודלי NER באנגלית משיגים דיוק של 85-92%. ערבית וסינית? לעיתים קרובות 50-70%. למדו על האתגרים הטכניים וכיצד לבנות זיהוי אמיתי.

February 26, 20268 דקות קריאה
NERmultilingualArabic NLPChinese NLPPII detection

NER רב-לשוני: אתגרים בזיהוי PII

עודכן ל-2026

פער הדיוק

מודלי NER שהואמנו על אנגלית מגיעים ל-85–92% F1 בבדיקות סטנדרטיות. החילו את אותם מודלים על טקסט ערבי או סיני. הדיוק יורד ל-50–70%.

לעבודת PII, פער זה הוא בעיה. שיעור פגיעה של 70% פירושו ש-30% מהנתונים הרגישים אינם נראים.

הסיבות אינן באגים. הן נובעות מהאופן שבו מערכות כתיבה שונות.

ארבע סיבות שורש

1. גבולות מילים

אנגלית מפרידה מילים עם רווחים. ה-Tokenization קל.

לסינית אין רווחים כלל.

"张伟住在北京"
→ פצלו תחילה: ["张伟", "住在", "北京"]

מודל לא יכול לתייג מה שהוא לא יכול למצוא. הפיצול חייב לבוא לפני NER.

ערבית מקשרת אותיות בתוך מילה. תנועות קצרות אינן נכתבות. הטקסט רץ מימין לשמאל.

"محمد يعيش في دبي"
→ ללא תנועות קצרות, ימין לשמאל, אותיות מחוברות

2. מורפולוגיה

פעלים אנגליים משתנים בכמה דרכים. ערבית משתמשת במערכת שורשים. שורש אחד יוצר עשרות מילים.

كتب (k-t-b, "לכתוב")
→ كاتب (סופר), كتاب (ספר), مكتبة (ספריה)

NER חייב לנתח שורשים כדי למצוא שמות בצורות מילה נגזרות.

3. מוסכמות שמות

שמות לטיניים מסודרים פרטי ואחר כך משפחה. שמות בשפות RTL מחברים קשרי משפחה.

محمد بن عبد الله
(מוחמד בן-עבדאללה)

שמות סיניים מציבים את שם המשפחה ראשון. רוב השמות הם בני שניים או שלושה תווים.

张伟 (Zhang Wei) — 2 תווים
欧阳修 (Ouyang Xiu) — 3 תווים

מודל שנבנה על תבניות שמות מערביות יפספס מבנים אלו.

4. כיוון הטקסט

חלק מהשפות רצות מימין לשמאל. כאשר טקסט RTL מכיל שם אנגלי, הסדר הויזואלי והסדר הלוגי נפרדים. זה נקרא טקסט BiDi. הוא דורש ניתוח קפדני.

ציוני F1 לפי מערכת כתיבה

שפהמערכת כתיבהטווח F1רמה
אנגליתלטינית85–92%נמוכה
גרמניתלטינית82–88%נמוכה
צרפתיתלטינית80–87%נמוכה
ספרדיתלטינית81–86%נמוכה
רוסיתקירילית75–83%בינונית
ערביתAbjad55–75%גבוהה
סיניתHanzi60–78%גבוהה
יפניתמעורבת65–80%גבוהה
תאיתתאית50–70%גבוהה מאוד
הינדידוואנגרי60–75%גבוהה

מערכות לא-לטיניות ופערי מילים חסרות מורידים ציונים בכלל.

פתרון תלת-שכבתי

אנחנו משתמשים בשלוש שכבות לכיסוי 48 שפות ומערכות כתיבה.

שכבה 1: spaCy — 25 שפות

לשפות עם מודלים חזקים ובדוקים. מכסה אנגלית, גרמנית, צרפתית, ספרדית, איטלקית, פורטוגלית, הולנדית, פולנית, רוסית ויוונית.

שכבה 2: Stanza — שפות מורכבות

Stanza של Stanford מטפלת בערבית, סינית, יפנית וקוריאנית. היא מריצה פיצולי מילים וניתוח שורשים לפני NER.

שכבה 3: XLM-RoBERTa — שפות עם משאבים נמוכים

לשפות ללא מודלים ייעודיים. תאית, וייטנאמית, הינדי, בנגלית, עברית, טורקית ופרסית נמצאות כאן. הוא מטפל בטקסט מעורב-שפות ללא צורך בסימונים מפורשים.

RTL ו-BiDi

טקסט מימין לשמאל דורש שלבים נוספים מעבר לפיצול.

המסלול שלנו:

  1. מנרמל טקסט לסדר לוגי.
  2. מריץ NER על אותו סדר.
  3. ממפה מיקומי ישויות בחזרה לסדר ויזואלי.

אנחנו מסירים קידומות מחוברות לפני NER ומחזירים אותן אחרי.

"محمد"  — שם בלבד
"لمحمد" — "למוחמד" (קידומת מחוברת)

עירוב קודים

מסמכים אמיתיים לרוב מערבים שפות בשורה אחת.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

המסלול שלנו מפצל לפי שפה. מריץ את המודל הנכון על כל חלק. לאחר מכן מחבר תוצאות עם מיפוי מיקום.

מדדים פנימיים

תוצאות מבדיקות פנימיות על נתונים מעורבי-שפות:

תרחישF1
אנגלית בלבד91%
גרמנית בלבד88%
ערבית בלבד79%
סינית בלבד81%
תמהיל אנגלית-ערבית83%
תמהיל אנגלית-סינית84%
תמהיל אנגלית-גרמנית89%

הערות הגדרה

אפליקציית שולחן העבודה מזהה שפה אוטומטית לכל מסמך. לקבצים מעורבי-שפות, היא מעבדת כל קטע עם המודל הנכון. אין שלב ידני.

הגדירו שפה ב-API כשאתם יודעים אותה:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

השתמשו בזיהוי אוטומטי כשלא:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

תבניות מותאמות אישית צריכות לכסות ספרות ספציפיות לאזור:

# מזהה עובד לטיני
EMP-[0-9]{6}

# מזהה עובד ערבי (כולל ספרות ערביות-הינדיות)
موظف-[٠-٩0-9]{6}

ראו את רשימת הישויות המלאה. להגדרת API, בקרו בדף תכונות ה-API. מדריך הציות ל-GDPR שלנו מכסה כיצד פערי זיהוי משפיעים על חוק הגנת הנתונים.


anonym.legal משתמש במחסנית NER תלת-שכבתית — spaCy, Stanza ו-XLM-RoBERTa — לכיסוי 48 שפות עם זיהוי PII עקבי.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.