Виклик змішаних мов
72% підприємств ЄС обробляють документи на 3+ мовах одночасно (Gartner 2024). Для деяких організацій змішані мовні документи є нормою:
Швейцарські фармацевтичні компанії:
- Регуляторна документація: Французька (OFSP/ANSM)
- Науковий зміст: Англійська (міжнародні журнали)
- Корпоративна документація: Німецька (материнська компанія)
Бельгійські фінансові установи:
- Клієнтські листи: Нідерландська/Французька/Англійська
- Регуляторна звітність: Французька (NBB/FSMA) + Нідерландська
Технічна проблема
Монолінгвальний NER застосовує одну мовну модель до всього документа. Коли зустрічає текст іншою мовою:
- Хибнопозитивні виявлення зростають
- Специфічні для мови ідентифікатори пропускаються
- Контекстний аналіз ламається
Рішення anonym.legal
nanonym.legal виконує автоматичне виявлення мови по сегменту:
- Виявляє мову кожного сегмента тексту
- Застосовує відповідну NER модель
- Застосовує специфічні для країни правила ідентифікатора
- Консолідує виявлення з усіх мов
Джерела: