Daudzvalodisku NER Izaicinājums
Nosaukto elementu atpazīšana (NER) modeļi, kas apmācīti angļu valodā, sasniedz iespaidīgus rezultātus — 85-92% F1 punkti standarta salīdzinājumos. Lietojiet tos pašus modeļus Arābu vai Ķīniešu valodai? Precizitāte bieži krīt uz 50-70%.
PII atklāšanai šī strauja ir kritiski. 70% atklāšanas ātrums nozīmē 30% sensitīvu datu paliek neaizsargāti.
Kāpēc Angļu Modeļi Neveiksmējas
1. Vārdu Robežas
Angļu: Vārdi ir atdalīti ar atstarpēm.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Ķīniešu: Nav vārdu robežu vispār.
"张伟住在北京"
→ Nepieciešams segmentēšana vispirms: ["张伟", "住在", "北京"]
Arābu: Vārdi savienoti un īsās patskaņi nav uzrakstīti.
"محمد يعيش في دبي"
→ Savienotās skripta, no labās uz kreiso, patskaņi izlaisti
Angļu valodas tokenizācijas noteikumi vienkārši nepiemēro.
2. Morfoloģiskā Kompleksitāte
Angļu morfoloģija: Relatīvi vienkārša
run → runs, running, ran
Arābu morfoloģija: Ārkārtīgi sarežģīta (saknes-modeļa sistēma)
كتب (k-t-b, "rakstīt" sakne)
→ كاتب (rakstnieks), كتاب (grāmata), مكتبة (bibliotēka), يكتب (viņš raksta)
Viena arābu sakne ģenerē desmitiem saistītu vārdu. NER modeļiem jāsaprot šis derivāciju sistēma.
3. Vārda Konvencijas
Angļu vārdi: Pirmais Uzvārds
John Smith, Mary Johnson
Arābu vārdi: Vairākas komponentes
محمد بن عبد الله بن عبد المطلب
(Muhammad dēls-par Abdullah dēls-par Abdul-Muttalib)
Ķīniešu vārdi: Ģimenes vārds vispirms, bieži 2-3 rakstzīmes kopā
张伟 (Zh...