Многјазична NER Предизвик
NER (Named Entity Recognition) модели обучени на English достигнуваат импресивни резултати—85-92% F1 резултати на стандардни benchmark. Применете ги исти модели на Арапски или Кинески? Точноста честопати пада на 50-70%.
За PII детекција, оваа пропаст е критична. 70% стапка на детекција значи 30% од чувствителни податоци остануваат незаштитени.
Зошто English Модели Пропаѓаат
1. Граници на Зборови
English: Зборовите се одделени со простори.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Кинески: Нема граници на зборови воопшто.
"张伟住在北京"
→ Треба сегментирање прво: ["张伟", "住在", "北京"]
Арапски: Зборовите се поврзуваат, и кратки сонаци не се пишуваат.
"محمد يعيش في دبي"
→ Поврзан скрипт, десно-влево, сонаци пропуштени
English tokenизациски правила едноставно не се применуваат.
2. Морфолошка Комплексност
English морфологија: Релативно едноставна
run → runs, running, ran
Арапска морфологија: Екстремно комплексна (root-pattern систем)
كتب (k-t-b, "пишувај" корен)
→ كاتب (писател), كتاب (книга), مكتبة (библиотека), يكتب (тој пишува)
Еден Арапски корен генерира десетици поврзани зборови. NER модели мора разумеат овој деривативо систем.
3. Имена Конвенции
English имена: Прво Презиме
John Smith, Mary Johnson
Арапски имена: Повеќе компоненти
محمد بن عبد الله بن عبد المطلب
(Muhammad син-на Abdullah син-на Abdul-Muttalib)
Кинески имена: Фамилно име прво, честопати 2-3 карактери вкупно
张伟 (Zh...