Die Veeltalige NER-Uitdaging
Named Entity Recognition (NER)-modelle opgelei op Engels behaal indrukwekkende resultate—85-92% F1-tellings op standaard instelpunte. Pas dieselfde modelle toe op Arabies of Chinees? Noukeurigheid daal dikwels na 50-70%.
Vir PII-opvoering is hierdie gaping kritiek. 'n 70%-opvoeringkoers beteken 30% van sensitiewe data bly onbeskerm.
Waarom Engels-Modelle Misluk
1. Woordgrense
Engels: Woorde word deur spasies geskei.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Chinees: Geen woordgrense glad nie.
"张伟住在北京"
→ Vereises segmentasie eerste: ["张伟", "住在", "北京"]
Arabies: Woorde verbind, en kort klinkers word nie geskryf nie.
"محمد يعيش في دبي"
→ Verbonde skrif, regs-na-links, klinkers weggelaat
Engels-tokenisasie-reëls pas bloot nie toe nie.
2. Morfologiese Kompleksiteit
Engels morfolgie: Relatief eenvoudig
run → runs, running, ran
Arabies morfolgie: Uiters kompleks (wortel-patroon-sisteem)
كتب (k-t-b, "skryf" wortel)
→ كاتب (skrywer), كتاب (boek), مكتبة (biblioteek), يكتب (hy skryf)
'n Enkele Arabiese wortel genereer dosyne verwante woorde. NER-modelle moet hierdie afleidings-sisteem verstaan.
3. Naam-Konvensies
Engels name: Voornaam Laaste
John Smith, Mary Johnson
Arabies name: Veelvoudige komponente
محمد بن عبد الله بن عبد المطلب
(Muhammad seun-van Abdullah seun-van Abdul-Muttalib)
Chinees name: Familie-naam eers, dikwels 2-3 karakters totaal
张伟 (Zh...