Itzuli BlogeraTeknikoa

NER Plurilingüea: Zergatik Huts Egiten Duen Zure...

NER ereduak %85-%92ko zehaztasuna lortzen dute ingelesean. Arabieraren eta txinaren kasuan? Askotan %50-%70.

February 26, 20268 min irakurri
NERmultilingualArabic NLPChinese NLPPII detection

Plurilingüe NER Erronka

Ingelesean entrenaturiko NER ereduak emaitza ederrak lortzen dituzte: %85-%92ko F1 puntuazioak neurri-markatzaile estandarrean. Eredu berdina arabierara edo txinara aplikatu? Zehaztasuna %50-%70ra behera egiten da.

PII detekzioaren kasuan, hutsune hau kritikoa da. %70eko detekzio-tasak esan nahi du egoki gabeko datu sentsialen %30 babestugabea geratzen dela.

Zergatik Huts Egiten Dute Ingelesez Entrenaturiko Ereduak

1. Hitzaren Mugak

Ingelesea: Hitzak zuzenean bereizten dira.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Txina: Hitzaren mugarik ez dago.

"张伟住在北京"
→ Lehenik segmentatzea behar da: ["张伟", "住在", "北京"]

Arabiera: Hitzak konektatu egiten dira, eta bokalen laburrak ez dira idatziten.

"محمد يعيش في دبي"
→ Konektaturiko idazkera, eskuinetik ezkerrera, bokalen gabe

Ingelesaren tokenizazio-arauak ez dute ere aplikatzen.

2. Morfoginaren Konplexutasuna

Ingelesaren morfogina: Nahiko sinplea

run → runs, running, ran

Arabieraren morfogina: Oso konplexua (suaren-eredu-sistema)

كتب (k-t-b, "idatzi" suarra)
→ كاتب (idazlea), كتاب (liburua), مكتبة (liburutegia), يكتب (idazten dute)

Suar bakarraren arabiera hamabik hitzetan artatu. NER ereduak deribazio-sistema hau ulertzen ahal dute.

3. Izenen Konbentzio

Ingelesaren izenak: Lehen Abizena

John Smith, Mary Johnson

Arabieraren izenak: Osagai anitz

محمد بن عبد الله بن عبد المطلب
(Muhammad Abdullah-semea Abdul-Muttalib-semea)

Txinaren izenak: Familia-izena lehena, beti 2-3 karaktere

张伟 (Zh...

Iturburuak:

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.