Quay lại BlogKỹ Thuật

Mô Hình NER Đa Ngôn Ngữ: Tại Sao Mô Hình Được Huấn...

Mô hình NER tiếng Anh đạt được 85-92% độ chính xác. Tiếng Ả Rập và Trung Quốc? Thường thì 40-55%. Đây là lý do tại sao và ảnh hưởng GDPR.

February 26, 20268 phút đọc
NERmultilingualArabic NLPChinese NLPPII detection

NER Đa Ngôn Ngữ: Những Thách Thức Phát Hiện Thực Thể Toàn Cầu

Dữ Liệu Độ Chính Xác

Mô hình NER tiếng Anh (spaCy, BERT):

  • PERSON: 88-92%
  • ORG: 85-90%
  • GPE: 80-88%

Mô hình Tiếng Ả Rập (AraBERT):

  • PERSON: 45-55%
  • ORG: 40-50%
  • GPE: 50-60%

Mô hình Trung Quốc (ZH-BERT):

  • PERSON: 50-60%
  • ORG: 45-55%
  • GPE: 55-65%

Tại Sao?

  1. Dữ liệu huấn luyện — Tiếng Anh có 100x lược đồ huấn luyện
  2. Phân tách từ — Tiếng Ả Rập và Trung Quốc không có khoảng trắng
  3. Diacritics — Tiếng Ả Rập và Tiếng Ảo thay đổi ý nghĩa
  4. Thứ tự từ — SVO vs VSO vs SOV grammar

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.