By · Last updated 2026-02-26

بلاگ پر واپس جائیںتکنیکی

کثیر لسانی NER: انگریزی عربی میں ناکام

انگریزی NER ماڈلز 85-92% درستگی حاصل کرتے ہیں۔ عربی اور چینی میں؟ اکثر 50-70%۔ تکنیکی چیلنجز اور واقعی کثیر لسانی پائپ لائن بنانے کا طریقہ سیکھیں۔

February 26, 20268 منٹ پڑھیں
NERmultilingualArabic NLPChinese NLPPII detection

کثیر لسانی NER: PII ڈٹیکشن میں چیلنجز

2026 کے لیے اپ ڈیٹ کیا گیا

درستگی کا خلا

انگریزی پر تربیت یافتہ NER ماڈلز معیاری ٹیسٹس میں 85–92% F1 حاصل کرتے ہیں۔ وہی ماڈلز عربی یا چینی متن پر لگائیں۔ درستگی 50–70% تک گر جاتی ہے۔

PII کے کام کے لیے یہ خلا ایک مسئلہ ہے۔ 70% کی شرح کا مطلب ہے 30% حساس ڈیٹا نظر نہیں آتا۔

وجوہات غلطیاں نہیں ہیں۔ یہ اس سے آتی ہیں کہ تحریری نظام کیسے مختلف ہیں۔

چار بنیادی وجوہات

1. لفظی حدود

انگریزی الفاظ کو خالی جگہوں سے الگ کرتی ہے۔ ٹوکنائزیشن آسان ہے۔

چینی میں بالکل خالی جگہ نہیں ہوتی۔

``` "张伟住在北京" → پہلے تقسیم کریں: ["张伟", "住在", "北京"] ```

ماڈل وہ نہیں ٹیگ کر سکتا جو وہ تلاش نہیں کر سکتا۔ NER سے پہلے تقسیم ہونی چاہیے۔

عربی میں ایک لفظ کے اندر حروف جڑے ہوتے ہیں۔ مختصر حرکات چھوڑ دی جاتی ہیں۔ متن دائیں سے بائیں چلتا ہے۔

``` "محمد يعيش في دبي" → کوئی مختصر حرکات نہیں، دائیں سے بائیں، جڑے حروف ```

2. صرف و نحو

انگریزی افعال چند طریقوں سے بدلتے ہیں۔ عربی جڑ نظام استعمال کرتی ہے۔ ایک جڑ سے درجنوں الفاظ بنتے ہیں۔

``` كتب (k-t-b, "لکھنا") → كاتب (لکھاری)، كتاب (کتاب)، مكتبة (لائبریری) ```

NER کو مشتق الفاظ میں نام تلاش کرنے کے لیے جڑوں کا تجزیہ کرنا پڑتا ہے۔

3. نام کے طریقے

لاطینی نام پہلے پھر آخری آتے ہیں۔ RTL زبانوں میں نام خاندانی روابط کا سلسلہ ہوتے ہیں۔

``` محمد بن عبد الله (محمد بیٹا عبداللہ) ```

چینی نام میں خاندانی نام پہلے آتا ہے۔ زیادہ تر نام دو یا تین حروف کے ہوتے ہیں۔

``` 张伟 (Zhang Wei) — 2 حروف 欧阳修 (Ouyang Xiu) — 3 حروف ```

مغربی نام کے پیٹرنز پر بنایا گیا ماڈل یہ ڈھانچے چھوڑ دے گا۔

4. متن کی سمت

کچھ زبانیں دائیں سے بائیں چلتی ہیں۔ جب RTL متن میں انگریزی نام ہو، بصری ترتیب اور منطقی ترتیب الگ ہو جاتی ہے۔ اسے BiDi متن کہتے ہیں۔ اس کے لیے محتاط پارسنگ ضروری ہے۔

تحریری نظام کے مطابق F1 اسکور

زبانتحریری نظامF1 رینجسطح
انگریزیلاطینی85–92%کم
جرمنلاطینی82–88%کم
فرانسیسیلاطینی80–87%کم
ہسپانویلاطینی81–86%کم
روسیسیریلک75–83%درمیانی
عربیابجد55–75%زیادہ
چینیہانزی60–78%زیادہ
جاپانیمخلوط65–80%زیادہ
تھائیتھائی50–70%بہت زیادہ
ہندیدیوناگری60–75%زیادہ

غیر لاطینی نظام اور لفظی خلا کی غیر موجودگی تمام اسکورز کو کم کرتے ہیں۔

تین سطحی حل

ہم 48 زبانوں اور تحریری نظاموں کا احاطہ کرنے کے لیے تین سطحیں استعمال کرتے ہیں۔

سطح 1: spaCy — 25 زبانیں

مضبوط، آزمائے ہوئے ماڈلز والی زبانوں کے لیے۔ اس میں انگریزی، جرمن، فرانسیسی، ہسپانوی، اطالوی، پرتگالی، ڈچ، پولش، روسی اور یونانی شامل ہیں۔

سطح 2: Stanza — پیچیدہ زبانیں

Stanford Stanza عربی، چینی، جاپانی اور کورین سنبھالتا ہے۔ NER سے پہلے لفظ تقسیم اور جڑ تجزیہ چلاتا ہے۔

سطح 3: XLM-RoBERTa — کم وسائل والی زبانیں

بغیر سرشار ماڈلز کی زبانوں کے لیے۔ تھائی، ویتنامی، ہندی، بنگالی، عبرانی، ترکی اور فارسی یہاں آتی ہیں۔ یہ بغیر کسی صریح جھنڈے کے مخلوط زبان متن سنبھالتا ہے۔

RTL اور BiDi

دائیں سے بائیں متن کو تقسیم سے آگے اضافی اقدامات کی ضرورت ہے۔

ہماری پائپ لائن:

  1. متن کو منطقی ترتیب میں نارملائز کرتی ہے۔
  2. اس ترتیب پر NER چلاتی ہے۔
  3. اکائی پوزیشنز کو بصری ترتیب میں واپس میپ کرتی ہے۔

ہم NER سے پہلے جڑے سابقے ہٹاتے ہیں اور بعد میں واپس جوڑتے ہیں۔

``` "محمد" — صرف نام "لمحمد" — "محمد کو" (سابقہ لگا ہوا) ```

کوڈ سوئچنگ

حقیقی دستاویزات اکثر ایک لائن میں زبانیں ملاتی ہیں۔

``` "El meeting con John es at 3pm" "我今天跟John去shopping" ```

ہماری پائپ لائن زبان کے مطابق تقسیم کرتی ہے۔ ہر حصے پر صحیح ماڈل چلاتی ہے۔ پھر پوزیشن میپنگ کے ساتھ نتائج جوڑتی ہے۔

اندرونی بینچ مارکس

مخلوط زبان ڈیٹا پر اندرونی ٹیسٹس کے نتائج:

منظر نامہF1
صرف انگریزی91%
صرف جرمن88%
صرف عربی79%
صرف چینی81%
انگریزی-عربی مخلوط83%
انگریزی-چینی مخلوط84%
انگریزی-جرمن مخلوط89%

سیٹ اپ نوٹس

Desktop App ہر دستاویز کے لیے خودکار طور پر زبان ڈٹیکٹ کرتا ہے۔ مخلوط زبان فائلوں کے لیے، یہ ہر حصے کو صحیح ماڈل سے پروسیس کرتا ہے۔ کوئی دستی مرحلہ نہیں چاہیے۔

جب آپ جانتے ہوں تو API میں زبان سیٹ کریں:

```json { "text": "محمد بن عبد الله", "language": "ar" } ```

جب نہ جانتے ہوں تو خودکار ڈٹیکشن استعمال کریں:

```json { "text": "محمد بن عبد الله", "language": "auto" } ```

حسب ضرورت پیٹرنز کو مقامی مخصوص ہندسوں کا احاطہ کرنا چاہیے:

```

لاطینی ملازم ID

EMP-[0-9]{6}

عربی ملازم ID (عربی-ہندی ہندسوں سمیت)

موظف-[٠-٩0-9]{6} ```

مکمل اکائی فہرست دیکھیں۔ API سیٹ اپ کے لیے، API فیچرز صفحہ ملاحظہ کریں۔ ہماری GDPR تعمیل گائیڈ میں احاطہ کرتا ہے کہ ڈٹیکشن خلاء ڈیٹا تحفظ قانون کو کیسے متاثر کرتے ہیں۔


anonym.legal ایک تین سطحی NER اسٹیک — spaCy، Stanza اور XLM-RoBERTa — استعمال کرتا ہے تاکہ مستقل PII ڈٹیکشن کے ساتھ 48 زبانوں کا احاطہ کرے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.