Atpakaļ uz BloguTehniskā

Daudzvalodisku NER: Kāpēc Jūsu Angļu Valodā Apmācīts...

Angļu Valodas NER modeļi sasniedz 85-92% precizitāti. Arābu un Ķīniešu? Bieži 50-70%.

February 26, 20268 min lasīšanai
NERmultilingualArabic NLPChinese NLPPII detection

Daudzvalodisku NER Izaicinājums

Nosaukto elementu atpazīšana (NER) modeļi, kas apmācīti angļu valodā, sasniedz iespaidīgus rezultātus — 85-92% F1 punkti standarta salīdzinājumos. Lietojiet tos pašus modeļus Arābu vai Ķīniešu valodai? Precizitāte bieži krīt uz 50-70%.

PII atklāšanai šī strauja ir kritiski. 70% atklāšanas ātrums nozīmē 30% sensitīvu datu paliek neaizsargāti.

Kāpēc Angļu Modeļi Neveiksmējas

1. Vārdu Robežas

Angļu: Vārdi ir atdalīti ar atstarpēm.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Ķīniešu: Nav vārdu robežu vispār.

"张伟住在北京"
→ Nepieciešams segmentēšana vispirms: ["张伟", "住在", "北京"]

Arābu: Vārdi savienoti un īsās patskaņi nav uzrakstīti.

"محمد يعيش في دبي"
→ Savienotās skripta, no labās uz kreiso, patskaņi izlaisti

Angļu valodas tokenizācijas noteikumi vienkārši nepiemēro.

2. Morfoloģiskā Kompleksitāte

Angļu morfoloģija: Relatīvi vienkārša

run → runs, running, ran

Arābu morfoloģija: Ārkārtīgi sarežģīta (saknes-modeļa sistēma)

كتب (k-t-b, "rakstīt" sakne)
→ كاتب (rakstnieks), كتاب (grāmata), مكتبة (bibliotēka), يكتب (viņš raksta)

Viena arābu sakne ģenerē desmitiem saistītu vārdu. NER modeļiem jāsaprot šis derivāciju sistēma.

3. Vārda Konvencijas

Angļu vārdi: Pirmais Uzvārds

John Smith, Mary Johnson

Arābu vārdi: Vairākas komponentes

محمد بن عبد الله بن عبد المطلب
(Muhammad dēls-par Abdullah dēls-par Abdul-Muttalib)

Ķīniešu vārdi: Ģimenes vārds vispirms, bieži 2-3 rakstzīmes kopā

张伟 (Zh...

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.