Flókalinga NER-áskoranir
Named Entity Recognition (NER) leikmenn þjálfaðir á enskum gögnum ná 85-92% F1-stigum. Beita sömu leikmönnum á arabiska eða kínverska? 45-60% F1-stigir.
Það er 30-40% nákvæmni endalaust—og það gerir PIL-greinin fyrir þessi tungumál of ótraust.
Af hverju?
Þrír þættir:
- Endalaus skipulagsmáti – Arabiska og kínverska hafa algjörlega ýmsa skipulagar og word-breaking reglur
- Endalaus þjálftun-gögn – NER-leikmenn voru þjálfaðir aðeins á enskum gögnum
- Endalaus stærð-sviðsmynd – Arabiska og kínverska stærðir eru ekki samsett með samfellu ensku stærðum