ความท้าทาย NER หลายภาษา
โมเดล NER ที่ฝึกบนภาษาอังกฤษบรรลุคะแนน F1 85-92% ใช้กับภาษาอาหรับหรือจีน? ความแม่นยำมักลดลงเหลือ 50-70%
สำหรับการตรวจจับ PII อัตราการตรวจจับ 70% หมายความว่า 30% ของข้อมูลละเอียดอ่อนไม่ได้รับการปกป้อง
ทำไมโมเดลภาษาอังกฤษจึงล้มเหลว
- ภาษาอังกฤษ: คำแยกด้วยเว้นวรรค
- ภาษาจีน: ไม่มีขอบเขตคำ ต้องตัดคำก่อน
- ภาษาอาหรับ: คำเชื่อมต่อกัน ขวาไปซ้าย ไม่มีสระสั้น
ความครอบคลุม 48 ภาษาของ anonym.legal
- โมเดล NER เฉพาะภาษาสำหรับทั้ง 48 ภาษา
- Pattern recognition สำหรับ national identifiers
- รองรับเอกสารผสมภาษา
แหล่งที่มา: