Izziv NER v več jezikih
Modeli za prepoznavanje poimenovanih entitet (NER), trenirani na angleščini, dosegajo impresivne rezultate – 85-92% F1 rezultati na standardnih merili. Uporabite te iste modele na arabščini ali kitajščini? Natančnost pogosto pade na 50-70%.
Za zaznavo PII je ta razlika kritična. 70% stopnja zaznave pomeni, da 30% občutljivih podatkov ostane neopazedovano.
Zakaj angleški modeli padajo
1. Meje besed
Angleščina: Besede so ločene s presledki.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Kitajščina: Nima mej med besedami.
"张伟住在北京"
→ Potrebna je segmentacija: ["张伟", "住在", "北京"]
Arabščina: Besede se povezujejo in kratke samoglasnike niso napisane.
"محمد يعيش في دبي"
→ Povezan sistem, desno-levo, samoglasniki izpuščeni
Angeleške pravile za tokenizacijo se preprosto ne nanašajo.