Plurilingüe NER Erronka
Ingelesean entrenaturiko NER ereduak emaitza ederrak lortzen dituzte: %85-%92ko F1 puntuazioak neurri-markatzaile estandarrean. Eredu berdina arabierara edo txinara aplikatu? Zehaztasuna %50-%70ra behera egiten da.
PII detekzioaren kasuan, hutsune hau kritikoa da. %70eko detekzio-tasak esan nahi du egoki gabeko datu sentsialen %30 babestugabea geratzen dela.
Zergatik Huts Egiten Dute Ingelesez Entrenaturiko Ereduak
1. Hitzaren Mugak
Ingelesea: Hitzak zuzenean bereizten dira.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Txina: Hitzaren mugarik ez dago.
"张伟住在北京"
→ Lehenik segmentatzea behar da: ["张伟", "住在", "北京"]
Arabiera: Hitzak konektatu egiten dira, eta bokalen laburrak ez dira idatziten.
"محمد يعيش في دبي"
→ Konektaturiko idazkera, eskuinetik ezkerrera, bokalen gabe
Ingelesaren tokenizazio-arauak ez dute ere aplikatzen.
2. Morfoginaren Konplexutasuna
Ingelesaren morfogina: Nahiko sinplea
run → runs, running, ran
Arabieraren morfogina: Oso konplexua (suaren-eredu-sistema)
كتب (k-t-b, "idatzi" suarra)
→ كاتب (idazlea), كتاب (liburua), مكتبة (liburutegia), يكتب (idazten dute)
Suar bakarraren arabiera hamabik hitzetan artatu. NER ereduak deribazio-sistema hau ulertzen ahal dute.
3. Izenen Konbentzio
Ingelesaren izenak: Lehen Abizena
John Smith, Mary Johnson
Arabieraren izenak: Osagai anitz
محمد بن عبد الله بن عبد المطلب
(Muhammad Abdullah-semea Abdul-Muttalib-semea)
Txinaren izenak: Familia-izena lehena, beti 2-3 karaktere
张伟 (Zh...
Iturburuak: