NER Đa Ngôn Ngữ: Những Thách Thức Phát Hiện Thực Thể Toàn Cầu
Dữ Liệu Độ Chính Xác
Mô hình NER tiếng Anh (spaCy, BERT):
- PERSON: 88-92%
- ORG: 85-90%
- GPE: 80-88%
Mô hình Tiếng Ả Rập (AraBERT):
- PERSON: 45-55%
- ORG: 40-50%
- GPE: 50-60%
Mô hình Trung Quốc (ZH-BERT):
- PERSON: 50-60%
- ORG: 45-55%
- GPE: 55-65%
Tại Sao?
- Dữ liệu huấn luyện — Tiếng Anh có 100x lược đồ huấn luyện
- Phân tách từ — Tiếng Ả Rập và Trung Quốc không có khoảng trắng
- Diacritics — Tiếng Ả Rập và Tiếng Ảo thay đổi ý nghĩa
- Thứ tự từ — SVO vs VSO vs SOV grammar