anonym.legal

By · Last updated 2026-02-26

Назад на блоготТехнички

Повеќејазичен NER: Английскиот не успева за арапски

NER моделите на англиски јазик постигнуваат точност од 85-92%. Арапски и кинески? Честопати 50-70%. Дознајте за техничките предизвици и како да изградите вистински повеќејазична детекција.

February 26, 20268 мин читање
NERmultilingualArabic NLPChinese NLPPII detection

Повеќејазичен NER: Предизвици во откривањето на PII

Ажурирано за 2026 година

Јазот во точноста

NER моделите обучени на англиски достигнуваат F1 резултати од 85-92% на стандардни тестови. Применете ги истите модели на арапски или кинески текст. Точноста паѓа на 50-70%.

За работата со PII, тој јаз е проблем. Стапка на погодување од 70% значи дека 30% од чувствителните податоци остануваат незабележани.

Причините не се грешки. Произлегуваат од тоа како писмените системи се разликуваат.

Четири основни причини

1. Граници на зборови

Англискиот ги разделува зборовите со празни места. Токенизацијата е лесна.

Кинескиот воопшто нема празни места.

"张伟住在北京"
→ Прво разделете: ["张伟", "住在", "北京"]

Моделот не може да означи она што не може да го пронајде. Разделувањето мора да дојде пред NER.

Арапскиот ги поврзува буквите во рамките на зборот. Кратките самогласки се изоставени. Текстот оди од десно кон лево.

"محمد يعيش في دبي"
→ Без кратки самогласки, одесно нолево, поврзани букви

2. Морфологија

Англиските глаголи се менуваат на неколку начини. Арапскиот користи систем на корени. Еден корен создава десетици зборови.

كتب (k-t-b, "пишува")
→ كاتب (писател), كتاب (книга), مكتبة (библиотека)

NER мора да ги анализира корените за да ги пронајде имињата во изведените форми на зборови.

3. Конвенции за имиња

Латинските имиња одат прво Ime потоа Презиме. Имињата во RTL јазиците ги поврзуваат семејните врски.

محمد بن عبد الله
(Мухамед, sin на Абдулах)

Кинеските имиња го ставаат семејното име прво. Повеќето имиња се долги два или три знаци.

张伟 (Zhang Wei) — 2 знаци
欧阳修 (Ouyang Xiu) — 3 знаци

Модел изграден на западни обрасци на имиња ќе ги пропушти овие структури.

4. Насока на текст

Некои јазици одат од десно кон лево. Кога RTL текстот содржи англиско иле, визуелниот редослед и логичниот редослед се разделуваат. Ова се нарекува BiDi текст. Бара внимателно анализирање.

F1 резултати по писмен систем

ЈазикПисмен системF1 опсегНиво
АнглискиЛатиница85-92%Ниско
ГерманскиЛатиница82-88%Ниско
ФранцускиЛатиница80-87%Ниско
ШпанскиЛатиница81-86%Ниско
РускиКирилица75-83%Средно
АрапскиАбџад55-75%Високо
КинескиХинзи60-78%Високо
ЈапонскиМешан65-80%Високо
ТајландскиТајски50-70%Многу високо
ХиндиДеванагари60-75%Високо

Не-латинските системи и празнините во зборовите ги намалуваат резултатите.

Решение со три нивоа

Користиме три нивоа за покривање на 48 јазика и писмени системи.

Ниво 1: spaCy — 25 јазика

За јазици со силни, тестирани модели. Ова ги опфаќа англискиот, германскиот, францускиот, шпанскиот, италијанскиот, португалскиот, холандскиот, полскиот, рускиот и грчкиот.

Ниво 2: Stanza — Сложени јазици

Stanza на Stanford ракува со арапски, кинески, јапонски и корејски. Извршува разделување на зборови и анализа на корени пред NER.

Ниво 3: XLM-RoBERTa — Јазици со малку ресурси

За јазици без посветени модели. Тајландски, виетнамски, хинди, бенгалски, хебрејски, турски и фарси одат тука. Ракува со мешан јазичен текст без потреба за изрични ознаки.

RTL и BiDi

Текстот од десно кон лево потребни се дополнителни чекори освен разделувањето.

Нашиот пајплајн:

  1. Го нормализира текстот во логичен редослед.
  2. Го извршува NER на тој редослед.
  3. Ги враќа позициите на ентитетите назад во визуелен редослед.

Ги отстрануваме прикачените префикси пред NER и ги додаваме назад потоа.

"محمد"  — само ime
"لمحمد" — "на Мухамед" (префикс вклучен)

Префрлување кодови

Вистинските документи честопати мешаат јазици во еден ред.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Нашиот пајплајн разделува по јазик. Го извршува правилниот модел на секој дел. Потоа ги спојува резултатите со пресликување на позиции.

Интерни бенчмаркови

Резултати од интерни тестови на мешани јазични податоци:

СценариоF1
Само англиски91%
Само германски88%
Само арапски79%
Само кинески81%
Мешан англиски-арапски83%
Мешан англиски-кинески84%
Мешан англиски-германски89%

Белешки за поставување

Десктоп апликацијата автоматски открива јазик по документ. За мешани јазични датотеки, тој обработува секој сегмент со правилниот модел. Не е потребен рачен чекор.

Поставете го јазикот во API кога го знаете:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Користете автоматско откривање кога не го знаете:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Приспособените обрасци треба да опфатат цифри специфични за локалот:

# Латинско ИД на вработен
EMP-[0-9]{6}

# Арапско ИД на вработен (вклучува арапско-индиски цифри)
موظف-[٠-٩0-9]{6}

Видете ја целосната листа на ентитети. За поставување на API, посетете ја страницата за функции на API. Нашиот водич за усогласеност со GDPR покрива kako јазовите во детекцијата влијаат на законот за заштита на податоци.


anonym.legal користи тро-нивовски NER стек — spaCy, Stanza и XLM-RoBERTa — за покривање на 48 јазика со доследно откривање на PII.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.