anonym.legal
Назад на блоготТехнички

Multi-Language NER: Зошто Вашиот English-Trained...

English NER модели достигнуваат 85-92% точност. Арапски и Кинески? Честопати 50-70%.

February 26, 20268 мин читање
NERmultilingualArabic NLPChinese NLPPII detection

Многјазична NER Предизвик

NER (Named Entity Recognition) модели обучени на English достигнуваат импресивни резултати—85-92% F1 резултати на стандардни benchmark. Применете ги исти модели на Арапски или Кинески? Точноста честопати пада на 50-70%.

За PII детекција, оваа пропаст е критична. 70% стапка на детекција значи 30% од чувствителни податоци остануваат незаштитени.

Зошто English Модели Пропаѓаат

1. Граници на Зборови

English: Зборовите се одделени со простори.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Кинески: Нема граници на зборови воопшто.

"张伟住在北京"
→ Треба сегментирање прво: ["张伟", "住在", "北京"]

Арапски: Зборовите се поврзуваат, и кратки сонаци не се пишуваат.

"محمد يعيش في دبي"
→ Поврзан скрипт, десно-влево, сонаци пропуштени

English tokenизациски правила едноставно не се применуваат.

2. Морфолошка Комплексност

English морфологија: Релативно едноставна

run → runs, running, ran

Арапска морфологија: Екстремно комплексна (root-pattern систем)

كتب (k-t-b, "пишувај" корен)
→ كاتب (писател), كتاب (книга), مكتبة (библиотека), يكتب (тој пишува)

Еден Арапски корен генерира десетици поврзани зборови. NER модели мора разумеат овој деривативо систем.

3. Имена Конвенции

English имена: Прво Презиме

John Smith, Mary Johnson

Арапски имена: Повеќе компоненти

محمد بن عبد الله بن عبد المطلب
(Muhammad син-на Abdullah син-на Abdul-Muttalib)

Кинески имена: Фамилно име прво, честопати 2-3 карактери вкупно

张伟 (Zh...

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.