By · Last updated 2026-02-26

بازگشت به وبلاگفنی

NER چند زبانه: انگلیسی در عربی شکست می‌خورد

مدل‌های NER انگلیسی به دقت 85-92% می‌رسند. عربی و چینی؟ اغلب 50-70%. درباره چالش‌های فنی و چگونگی ساخت سیستم واقعی بیاموزید.

February 26, 20268 دقیقه مطالعه
NERmultilingualArabic NLPChinese NLPPII detection

NER چند زبانه: چالش‌ها در تشخیص PII

به‌روزرسانی شده برای 2026

شکاف دقت

مدل‌های NER آموزش‌دیده روی انگلیسی در آزمون‌های استاندارد به F1 85-92% می‌رسند. همین مدل‌ها را روی متن عربی یا چینی اعمال کنید. دقت به 50-70% کاهش می‌یابد.

برای کار PII، این شکاف یک مشکل است. نرخ بازیابی 70% به معنای 30% از داده‌های حساس نادیده گرفته می‌شوند.

علل اشکال نیستند. آنها از نحوه تفاوت سیستم‌های نوشتاری ناشی می‌شوند.

چهار علت اصلی

1. مرزهای کلمه

انگلیسی کلمات را با فاصله جدا می‌کند. توکن‌سازی آسان است.

چینی هیچ فاصله‌ای ندارد.

"张伟住在北京"
→ ابتدا تقسیم کنید: ["张伟", "住在", "北京"]

یک مدل نمی‌تواند آنچه را که نمی‌تواند بیابد برچسب‌گذاری کند. تقسیم باید قبل از NER باشد.

عربی حروف را درون یک کلمه به هم متصل می‌کند. حرکت‌های کوتاه حذف می‌شوند. متن از راست به چپ می‌رود.

"محمد يعيش في دبي"
→ بدون حرکت کوتاه، راست به چپ، حروف متصل

2. ریخت‌شناسی

فعل‌های انگلیسی به چند روش تغییر می‌کنند. عربی از سیستم ریشه استفاده می‌کند. یک ریشه ده‌ها کلمه ایجاد می‌کند.

كتب (k-t-b، "نوشتن")
→ كاتب (نویسنده)، كتاب (کتاب)، مكتبة (کتابخانه)

NER باید ریشه‌ها را برای یافتن نام‌ها در اشکال مشتق تجزیه کند.

3. قراردادهای نامگذاری

نام‌های لاتین ابتدا نام کوچک سپس نام خانوادگی می‌آیند. نام‌ها در زبان‌های RTL پیوندهای خانوادگی را زنجیر می‌کنند.

محمد بن عبد الله
(محمد پسر عبدالله)

نام‌های چینی نام خانوادگی را اول می‌گذارند. اکثر نام‌ها دو یا سه کاراکتر دارند.

张伟 (Zhang Wei) — 2 کاراکتر
欧阳修 (Ouyang Xiu) — 3 کاراکتر

مدلی که روی الگوهای نام غربی ساخته شده این ساختارها را از دست می‌دهد.

4. جهت متن

برخی زبان‌ها از راست به چپ می‌روند. هنگامی که متن RTL یک نام انگلیسی دارد، ترتیب بصری و منطقی از هم جدا می‌شوند. به این BiDi متن می‌گویند. نیاز به تجزیه دقیق دارد.

امتیازات F1 بر اساس سیستم نوشتاری

زبانسیستم نوشتاریمحدوده F1سطح
انگلیسیلاتین85–92%پایین
آلمانیلاتین82–88%پایین
فرانسویلاتین80–87%پایین
اسپانیاییلاتین81–86%پایین
روسیسیریلیک75–83%متوسط
عربیابجد55–75%بالا
چینیهانزی60–78%بالا
ژاپنیمختلط65–80%بالا
تایلندیتایلندی50–70%خیلی بالا
هندیدوناگری60–75%بالا

راه‌حل سه سطحی

ما از سه سطح برای پوشش 48 زبان و سیستم نوشتاری استفاده می‌کنیم.

سطح 1: spaCy — 25 زبان

برای زبان‌هایی با مدل‌های قوی و آزمایش شده. این انگلیسی، آلمانی، فرانسوی، اسپانیایی، ایتالیایی، پرتغالی، هلندی، لهستانی، روسی و یونانی را پوشش می‌دهد.

سطح 2: Stanza — زبان‌های پیچیده

Stanza استنفورد عربی، چینی، ژاپنی و کره‌ای را مدیریت می‌کند. قبل از NER تقسیم کلمات و تحلیل ریشه انجام می‌دهد.

سطح 3: XLM-RoBERTa — زبان‌های کم‌منبع

برای زبان‌هایی که مدل اختصاصی ندارند. تایلندی، ویتنامی، هندی، بنگالی، عبری، ترکی و فارسی اینجا هستند. متن مختلط را بدون پرچم‌های صریح مدیریت می‌کند.

RTL و BiDi

متن راست به چپ به مراحل اضافی فراتر از تقسیم نیاز دارد.

خط لوله ما:

  1. متن را به ترتیب منطقی نرمال‌سازی می‌کند.
  2. NER را روی آن ترتیب اجرا می‌کند.
  3. موقعیت‌های موجودیت را به ترتیب بصری برمی‌گرداند.

ما پیشوندهای متصل را قبل از NER حذف می‌کنیم و بعد از آن اضافه می‌کنیم.

"محمد"  — فقط نام
"لمحمد" — "برای محمد" (پیشوند روشن)

تغییر کد

اسناد واقعی اغلب زبان‌ها را در یک خط مخلوط می‌کنند.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

خط لوله ما بر اساس زبان تقسیم می‌کند. مدل مناسب را روی هر بخش اجرا می‌کند. سپس نتایج را با نگاشت موقعیت ادغام می‌کند.

معیارهای داخلی

نتایج از آزمون‌های داخلی روی داده‌های مختلط چند زبانه:

سناریوF1
فقط انگلیسی91%
فقط آلمانی88%
فقط عربی79%
فقط چینی81%
مختلط انگلیسی-عربی83%
مختلط انگلیسی-چینی84%
مختلط انگلیسی-آلمانی89%

یادداشت‌های راه‌اندازی

برنامه دسکتاپ زبان را به طور خودکار بر اساس هر سند تشخیص می‌دهد. برای فایل‌های مختلط چند زبانه، هر بخش را با مدل مناسب پردازش می‌کند. هیچ مرحله دستی لازم نیست.

زبان را در API تنظیم کنید وقتی می‌دانید:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

از تشخیص خودکار استفاده کنید وقتی نمی‌دانید:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

لیست کامل موجودیت‌ها را ببینید. برای راه‌اندازی API، صفحه ویژگی‌های API را بازدید کنید. راهنمای انطباق GDPR ما نشان می‌دهد چگونه شکاف‌های تشخیص بر قانون حفاظت از داده تأثیر می‌گذارند.


anonym.legal از یک پشته NER سه سطحی — spaCy، Stanza و XLM-RoBERTa — برای پوشش 48 زبان با تشخیص PII سازگار استفاده می‌کند.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.