Til baka á BloggTæknilegt

Flókalinga NER: Arabiska og kínversk áskoranir

Engl NER-leikmenn virka með 85-92% nákvæmni. Arabian og kínversk? 45-60%. Kannaðu áskoranir og lausnir.

February 26, 20268 mín lestur
NERmultilingualArabic NLPChinese NLPPII detection

Flókalinga NER-áskoranir

Named Entity Recognition (NER) leikmenn þjálfaðir á enskum gögnum ná 85-92% F1-stigum. Beita sömu leikmönnum á arabiska eða kínverska? 45-60% F1-stigir.

Það er 30-40% nákvæmni endalaust—og það gerir PIL-greinin fyrir þessi tungumál of ótraust.

Af hverju?

Þrír þættir:

  1. Endalaus skipulagsmáti – Arabiska og kínverska hafa algjörlega ýmsa skipulagar og word-breaking reglur
  2. Endalaus þjálftun-gögn – NER-leikmenn voru þjálfaðir aðeins á enskum gögnum
  3. Endalaus stærð-sviðsmynd – Arabiska og kínverska stærðir eru ekki samsett með samfellu ensku stærðum

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.