anonym.legal

By · Last updated 2026-02-26

Назад до блогуТехнічні

Багатомовний NER: англійські моделі не справляються з арабською

Англійські NER-моделі досягають 85-92% точності. Арабська та китайська? Часто лише 50-70%. Дізнайтеся про технічні проблеми та як будувати дійсно багатомовний захист.

February 26, 20268 хв читання
NERmultilingualArabic NLPChinese NLPPII detection

Багатомовний NER: проблеми виявлення PII

Оновлено для 2026 року

Розрив у точності

NER-моделі, навчені на англійській мові, досягають 85–92% F1 на стандартних тестах. Застосуйте ці самі моделі до арабського або китайського тексту. Точність падає до 50–70%.

Для роботи з PII цей розрив є проблемою. Показник влучень 70% означає, що 30% чутливих даних залишаються непоміченими.

Причини — не помилки. Вони випливають із відмінностей між системами письма.

Чотири корінні причини

1. Межі слів

Англійська розділяє слова пробілами. Токенізація проста.

Китайська не має пробілів взагалі.

«张伟住在北京»
→ Спочатку розбити: [«张伟», «住在», «北京»]

Модель не може позначити те, що не знаходить. Розбиття має передувати NER.

Арабська з'єднує літери всередині слова. Короткі голосні пропускаються. Текст іде справа наліво.

«محمد يعيش في دبي»
→ Без коротких голосних, справа наліво, з'єднані літери

2. Морфологія

Англійські дієслова змінюються лише кількома способами. Арабська використовує кореневу систему. Один корінь породжує десятки слів.

كتب (k-t-b, «писати»)
→ كاتب (письменник), كتاب (книга), مكتبة (бібліотека)

NER має розбирати корені, щоб знаходити імена у похідних формах слів.

3. Конвенції імен

Латинські імена йдуть: Ім'я потім Прізвище. Імена в мовах справа наліво утворюють ланцюги родинних зв'язків.

محمد بن عبد الله
(Мухаммад, син Абдалли)

Китайські імена ставлять прізвище першим. Більшість імен складається з двох або трьох ієрогліфів.

张伟 (Чжан Вей) — 2 символи
欧阳修 (Оуян Сю) — 3 символи

Модель, побудована на зразках західних імен, пропустить ці структури.

4. Напрямок тексту

Деякі мови пишуться справа наліво. Коли текст справа наліво містить англійське ім'я, візуальний порядок і логічний порядок розходяться. Це називається двонаправленим текстом (BiDi). Це потребує ретельного аналізу.

F1-показники за системами письма

МоваСистема письмаДіапазон F1Рівень складності
АнглійськаЛатиниця85–92%Низький
НімецькаЛатиниця82–88%Низький
ФранцузькаЛатиниця80–87%Низький
ІспанськаЛатиниця81–86%Низький
РосійськаКирилиця75–83%Середній
АрабськаАбджад55–75%Високий
КитайськаХаньцзи60–78%Високий
ЯпонськаЗмішана65–80%Високий
ТайськаТайська50–70%Дуже високий
ГіндіДеванагарі60–75%Високий

Не-латинські системи та відсутні межі слів знижують показники.

Трирівневе рішення

Ми використовуємо три рівні для охоплення 48 мов і систем письма.

Рівень 1: spaCy — 25 мов

Для мов із сильними, перевіреними моделями. Охоплює англійську, німецьку, французьку, іспанську, італійську, португальську, нідерландську, польську, російську та грецьку.

Рівень 2: Stanza — складні мови

Stanford Stanza обробляє арабську, китайську, японську та корейську. Виконує розбиття слів та кореневий аналіз перед NER.

Рівень 3: XLM-RoBERTa — малоресурсні мови

Для мов без спеціальних моделей. Тайська, в'єтнамська, гінді, бенгальська, іврит, турецька та фарсі переходять сюди. Обробляє мішаний текст без явних маркерів мови.

RTL та BiDi

Текст справа наліво потребує додаткових кроків поза розбиттям.

Наш конвеєр:

  1. Нормалізує текст до логічного порядку.
  2. Запускає NER на цьому порядку.
  3. Відображає позиції сутностей назад до візуального порядку.

Ми відокремлюємо приєднані префікси перед NER і додаємо їх назад після.

«محمد»  — лише ім'я
«لمحمد» — «до Мухаммада» (з префіксом)

Перемикання кодів

Реальні документи часто змішують мови в одному рядку.

«El meeting con John es at 3pm»
«我今天跟John去shopping»

Наш конвеєр розбиває за мовою. Запускає правильну модель для кожної частини. Потім об'єднує результати з картуванням позицій.

Внутрішні бенчмарки

Результати внутрішніх тестів на змішаних мовних даних:

СценарійF1
Лише англійська91%
Лише німецька88%
Лише арабська79%
Лише китайська81%
Суміш англійська-арабська83%
Суміш англійська-китайська84%
Суміш англійська-німецька89%

Примітки щодо налаштування

Десктопний застосунок автоматично визначає мову для кожного документа. Для файлів із кількома мовами він обробляє кожен сегмент відповідною моделлю. Ручних кроків не потрібно.

Вкажіть мову в API, якщо ви її знаєте:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Використовуйте автовизначення, якщо не знаєте:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Кастомні шаблони мають охоплювати цифри, специфічні для регіону:

# Латинський ID співробітника
EMP-[0-9]{6}

# Арабський ID співробітника (включає арабсько-індійські цифри)
موظف-[٠-٩0-9]{6}

Дивіться повний перелік сутностей. Для налаштування API відвідайте сторінку функцій API. Наш посібник з відповідності GDPR охоплює, як прогалини у виявленні впливають на законодавство про захист даних.


anonym.legal використовує трирівневий NER-стек — spaCy, Stanza та XLM-RoBERTa — для охоплення 48 мов із стабільним виявленням PII.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.