anonym.legal
Nazaj na blogTehnično

NER v več jezikih: Zakaj vaš angleški model pada na...

Angleški modeli NER dosegajo 85-92% natančnosti. Arabščina in kitajščina? Pogosto le 50-70%.

February 26, 20268 min branja
NERmultilingualArabic NLPChinese NLPPII detection

Izziv NER v več jezikih

Modeli za prepoznavanje poimenovanih entitet (NER), trenirani na angleščini, dosegajo impresivne rezultate – 85-92% F1 rezultati na standardnih merili. Uporabite te iste modele na arabščini ali kitajščini? Natančnost pogosto pade na 50-70%.

Za zaznavo PII je ta razlika kritična. 70% stopnja zaznave pomeni, da 30% občutljivih podatkov ostane neopazedovano.

Zakaj angleški modeli padajo

1. Meje besed

Angleščina: Besede so ločene s presledki.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Kitajščina: Nima mej med besedami.

"张伟住在北京"
→ Potrebna je segmentacija: ["张伟", "住在", "北京"]

Arabščina: Besede se povezujejo in kratke samoglasnike niso napisane.

"محمد يعيش في دبي"
→ Povezan sistem, desno-levo, samoglasniki izpuščeni

Angeleške pravile za tokenizacijo se preprosto ne nanašajo.

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.