By · Last updated 2026-02-26

Quay lại BlogKỹ Thuật

NER đa ngôn ngữ: Mô hình tiếng Anh thất bại với tiếng Ả Rập

Mô hình NER được đào tạo trên tiếng Anh đạt độ chính xác 85-92%. Tiếng Ả Rập và tiếng Trung? Thường chỉ 50-70%. Tìm hiểu về những thách thức kỹ thuật và cách xây dựng hệ thống thực sự đa ngôn ngữ.

February 26, 20268 phút đọc
NERmultilingualArabic NLPChinese NLPPII detection

NER đa ngôn ngữ: Thách thức trong phát hiện PII

Cập nhật cho năm 2026

Khoảng cách độ chính xác

Các mô hình NER được đào tạo trên tiếng Anh đạt F1 85–92% trên các bài kiểm tra tiêu chuẩn. Áp dụng chính xác những mô hình đó cho văn bản tiếng Ả Rập hoặc tiếng Trung. Độ chính xác giảm xuống 50–70%.

Đối với công việc PII, khoảng cách đó là vấn đề. Tỷ lệ nhận diện 70% nghĩa là 30% dữ liệu nhạy cảm không được phát hiện.

Nguyên nhân không phải là lỗi. Chúng xuất phát từ sự khác biệt trong hệ thống chữ viết.

Bốn nguyên nhân gốc rễ

1. Ranh giới từ

Tiếng Anh tách từ bằng dấu cách. Việc token hóa rất dễ dàng.

Tiếng Trung không có dấu cách nào cả.

"张伟住在北京"
→ Tách trước: ["张伟", "住在", "北京"]

Một mô hình không thể gán nhãn những gì nó không thể tìm thấy. Việc tách phải đến trước NER.

Tiếng Ả Rập liên kết các chữ cái trong một từ. Nguyên âm ngắn bị bỏ qua. Văn bản chạy từ phải sang trái.

"محمد يعيش في دبي"
→ Không có nguyên âm ngắn, phải sang trái, chữ cái liên kết

2. Hình thái học

Động từ tiếng Anh thay đổi theo vài cách. Tiếng Ả Rập sử dụng hệ thống gốc từ. Một gốc từ tạo ra hàng chục từ.

كتب (k-t-b, "viết")
→ كاتب (người viết), كتاب (sách), مكتبة (thư viện)

NER phải phân tích gốc từ để tìm tên trong các dạng từ phái sinh.

3. Quy ước đặt tên

Tên Latin đi Họ rồi Tên. Tên trong các ngôn ngữ RTL kết nối các liên kết gia đình.

محمد بن عبد الله
(Muhammad con trai của Abdullah)

Tên tiếng Trung đặt họ lên đầu. Hầu hết tên có hai hoặc ba ký tự.

张伟 (Zhang Wei) — 2 ký tự
欧阳修 (Ouyang Xiu) — 3 ký tự

Một mô hình được xây dựng trên các mẫu tên phương Tây sẽ bỏ sót những cấu trúc này.

4. Hướng văn bản

Một số ngôn ngữ chạy từ phải sang trái. Khi văn bản RTL chứa tên tiếng Anh, thứ tự thị giác và thứ tự logic tách nhau. Điều này được gọi là văn bản BiDi. Nó đòi hỏi phân tích cú pháp cẩn thận.

Điểm F1 theo hệ thống chữ viết

Ngôn ngữHệ thống chữ viếtPhạm vi F1Mức độ
Tiếng AnhLatin85–92%Thấp
Tiếng ĐứcLatin82–88%Thấp
Tiếng PhápLatin80–87%Thấp
Tiếng Tây Ban NhaLatin81–86%Thấp
Tiếng NgaCyrillic75–83%Trung bình
Tiếng Ả RậpAbjad55–75%Cao
Tiếng TrungHanzi60–78%Cao
Tiếng NhậtHỗn hợp65–80%Cao
Tiếng TháiThai50–70%Rất cao
Tiếng HindiDevanagari60–75%Cao

Hệ thống không phải Latin và thiếu ranh giới từ làm giảm điểm trên diện rộng.

Giải pháp ba tầng

Chúng tôi sử dụng ba tầng để bao phủ 48 ngôn ngữ và hệ thống chữ viết.

Tầng 1: spaCy — 25 ngôn ngữ

Dành cho các ngôn ngữ có mô hình mạnh, đã được kiểm thử. Bao gồm tiếng Anh, Đức, Pháp, Tây Ban Nha, Ý, Bồ Đào Nha, Hà Lan, Ba Lan, Nga và Hy Lạp.

Tầng 2: Stanza — Ngôn ngữ phức tạp

Stanza của Stanford xử lý tiếng Ả Rập, Trung, Nhật và Hàn. Nó chạy tách từ và phân tích gốc từ trước NER.

Tầng 3: XLM-RoBERTa — Ngôn ngữ ít tài nguyên

Dành cho các ngôn ngữ không có mô hình chuyên dụng. Tiếng Thái, Việt, Hindi, Bengali, Hebrew, Thổ Nhĩ Kỳ và Farsi thuộc nhóm này. Nó xử lý văn bản đa ngôn ngữ mà không cần gắn cờ rõ ràng.

RTL và BiDi

Văn bản từ phải sang trái cần các bước bổ sung ngoài việc tách từ.

Quy trình của chúng tôi:

  1. Chuẩn hóa văn bản về thứ tự logic.
  2. Chạy NER trên thứ tự đó.
  3. Ánh xạ vị trí thực thể trở lại thứ tự thị giác.

Chúng tôi loại bỏ tiền tố đính kèm trước NER và thêm lại sau.

"محمد"  — chỉ tên
"لمحمد" — "tới Muhammad" (có tiền tố)

Chuyển đổi ngôn ngữ

Tài liệu thực tế thường pha trộn ngôn ngữ trên một dòng.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Quy trình của chúng tôi tách theo ngôn ngữ. Nó chạy mô hình phù hợp trên từng phần. Sau đó kết hợp kết quả với ánh xạ vị trí.

Điểm chuẩn nội bộ

Kết quả từ các bài kiểm tra nội bộ trên dữ liệu đa ngôn ngữ:

Kịch bảnF1
Chỉ tiếng Anh91%
Chỉ tiếng Đức88%
Chỉ tiếng Ả Rập79%
Chỉ tiếng Trung81%
Tiếng Anh-Ả Rập hỗn hợp83%
Tiếng Anh-Trung hỗn hợp84%
Tiếng Anh-Đức hỗn hợp89%

Ghi chú thiết lập

Ứng dụng desktop tự động phát hiện ngôn ngữ theo tài liệu. Đối với tệp đa ngôn ngữ, nó xử lý từng đoạn với mô hình phù hợp. Không cần bước thủ công.

Đặt ngôn ngữ trong API khi bạn biết:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Sử dụng tự động phát hiện khi bạn không biết:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Các mẫu tùy chỉnh nên bao phủ chữ số theo vùng:

# ID nhân viên Latin
EMP-[0-9]{6}

# ID nhân viên Ả Rập (bao gồm chữ số Ả Rập-Ấn)
موظف-[٠-٩0-9]{6}

Xem danh sách thực thể đầy đủ. Để thiết lập API, truy cập trang tính năng API. Hướng dẫn tuân thủ GDPR của chúng tôi bao gồm cách khoảng cách phát hiện ảnh hưởng đến luật bảo vệ dữ liệu.


anonym.legal sử dụng bộ NER ba tầng — spaCy, Stanza và XLM-RoBERTa — để bao phủ 48 ngôn ngữ với tính năng phát hiện PII nhất quán.

Nguồn tham khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.