anonym.legal
กลับไปที่บล็อกเทคนิค

NER หลายภาษา: ทำไมโมเดลที่ฝึกด้วยภาษาอังกฤษจึงล้มเหลวก...

โมเดล NER ภาษาอังกฤษบรรลุความแม่นยำ 85-92% ภาษาอาหรับและจีน? มักอยู่ที่ 50-70% เรียนรู้เกี่ยวกับความท้าทายทางเทคนิค

February 26, 20268 อ่านประมาณ
NERmultilingualArabic NLPChinese NLPPII detection

ความท้าทาย NER หลายภาษา

โมเดล NER ที่ฝึกบนภาษาอังกฤษบรรลุคะแนน F1 85-92% ใช้กับภาษาอาหรับหรือจีน? ความแม่นยำมักลดลงเหลือ 50-70%

สำหรับการตรวจจับ PII อัตราการตรวจจับ 70% หมายความว่า 30% ของข้อมูลละเอียดอ่อนไม่ได้รับการปกป้อง

ทำไมโมเดลภาษาอังกฤษจึงล้มเหลว

  • ภาษาอังกฤษ: คำแยกด้วยเว้นวรรค
  • ภาษาจีน: ไม่มีขอบเขตคำ ต้องตัดคำก่อน
  • ภาษาอาหรับ: คำเชื่อมต่อกัน ขวาไปซ้าย ไม่มีสระสั้น

ความครอบคลุม 48 ภาษาของ anonym.legal

  • โมเดล NER เฉพาะภาษาสำหรับทั้ง 48 ภาษา
  • Pattern recognition สำหรับ national identifiers
  • รองรับเอกสารผสมภาษา

แหล่งที่มา:

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.