anonym.legal
Terug na BlogTegnies

Multi-Taal NER: Waarom Jou Engels-Opgelei Model op...

Engels NER-modelle behaal 85-92% noukeurigheid. Arabies en Chinees? Dikwels 50-70%.

February 26, 20268 min lees
NERmultilingualArabic NLPChinese NLPPII detection

Die Veeltalige NER-Uitdaging

Named Entity Recognition (NER)-modelle opgelei op Engels behaal indrukwekkende resultate—85-92% F1-tellings op standaard instelpunte. Pas dieselfde modelle toe op Arabies of Chinees? Noukeurigheid daal dikwels na 50-70%.

Vir PII-opvoering is hierdie gaping kritiek. 'n 70%-opvoeringkoers beteken 30% van sensitiewe data bly onbeskerm.

Waarom Engels-Modelle Misluk

1. Woordgrense

Engels: Woorde word deur spasies geskei.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Chinees: Geen woordgrense glad nie.

"张伟住在北京"
→ Vereises segmentasie eerste: ["张伟", "住在", "北京"]

Arabies: Woorde verbind, en kort klinkers word nie geskryf nie.

"محمد يعيش في دبي"
→ Verbonde skrif, regs-na-links, klinkers weggelaat

Engels-tokenisasie-reëls pas bloot nie toe nie.

2. Morfologiese Kompleksiteit

Engels morfolgie: Relatief eenvoudig

run → runs, running, ran

Arabies morfolgie: Uiters kompleks (wortel-patroon-sisteem)

كتب (k-t-b, "skryf" wortel)
→ كاتب (skrywer), كتاب (boek), مكتبة (biblioteek), يكتب (hy skryf)

'n Enkele Arabiese wortel genereer dosyne verwante woorde. NER-modelle moet hierdie afleidings-sisteem verstaan.

3. Naam-Konvensies

Engels name: Voornaam Laaste

John Smith, Mary Johnson

Arabies name: Veelvoudige komponente

محمد بن عبد الله بن عبد المطلب
(Muhammad seun-van Abdullah seun-van Abdul-Muttalib)

Chinees name: Familie-naam eers, dikwels 2-3 karakters totaal

张伟 (Zh...

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.