Документы, которые противоречат однолингвистическим инструментам
Трудовой контракт швейцарской фармацевтической компании не написан на одном языке. В Швейцарии четыре официальных языка. Документы, производимые швейцарскими организациями, обычно смешивают немецкий для основного текста контракта, французский для определенных регуляторных положений и английский для разделов, касающихся международных стандартов — иногда в одном абзаце.
Протоколы заседаний правления бельгийской компании содержат отчеты на голландском с французскими формальными резолюциями и английскими сводками для международных инвесторов. Соглашение о обработке данных многонациональной корпорации включает технические спецификации на английском, положения о правах субъектов данных на немецком и контактную информацию DPA на французском.
Это не необычные документы. Они являются стандартным результатом работы многонациональных организаций, действующих на многоязычных рынках. И однолингвистические инструменты обнаружения PII систематически не справляются с ними.
На 45% более высокий уровень пропусков
Исследование, сравнивающее однолингвистические и многоязычные подходы NER на смешанных языковых документах, показало, что смешанные языковые документы вызывают на 45% более высокий уровень пропусков PII в однолингвистических инструментах NER по сравнению с их производительностью на чисто однолингвистических документах.
Причина разрыва заключается в архитектуре: однолингвистическая модель NER, обученная на немецком тексте, изучает паттерны имен на немецком, конвенции имен организаций на немецком и структуры адресов на немецком. Когда эта модель сталкивается с французским разделом в основном немецком документе, она работает вне своей обучающей выборки. Французские имена, французские адреса и французские идентификаторы организаций в этом разделе подвержены снижению точности обнаружения — не потому, что модель плохо обучена, а потому, что она была обучена на неправильном языке для этого раздела.
Дополнительная находка: 72% предприятий ЕС обрабатывают документы на 3 и более языках одновременно (EDPB 2024), и многоязычные HR-документы содержат на 67% больше PII на странице по сравнению с однолингвистическими аналогами (Gartner 2024). Сочетание более высокой плотности PII и более высоких уровней пропусков усугубляет разрыв в соблюдении норм в организациях, которые обрабатывают многоязычные HR, юридические и коммерческие документы.
Как языковые границы создают сбои в обнаружении
Сбой не является однородным. PII на языковых границах — где раздел переходит с одного языка на другой — особенно уязвим.
Трудовой контракт может содержать пункт, например: "Der Arbeitnehmer (Сотрудник: Жан-Пьер Дюпон, родился 15 марта 1985 года в Лионе) stimmt zu..." — смешивая немецкую структуру предложения с французским именем и датой рождения. Модель NER на немецком языке сталкивается с французским именем в позиции, где она ожидает немецкие имена, и может не классифицировать его правильно. Модель на французском языке видит контекстные слова на немецком и не может надежно идентифицировать окружающую структуру документа.
Наблюдение Gartner 2024 о том, что многоязычные HR-документы содержат на 67% больше PII на странице, чем однолингвистические аналоги, делает этот сбой в обнаружении границ особенно значительным: HR-документы являются одними из типов документов с наибольшей плотностью PII, и они производятся многоязычными организациями в смешанном языковом формате.
Решение на основе кросс-языкового трансформера
XLM-RoBERTa (Кросс-языковая языковая модель - Роберта) представляет собой другой архитектурный подход к этой проблеме. Вместо того чтобы обучать отдельную модель для каждого языка, XLM-RoBERTa обучается на текстах из 100 языков одновременно. Модель изучает, что задачи распознавания сущностей имеют общие паттерны между языками — что структурные отношения между именем человека и окружающими контекстными словами схожи на немецком, французском и английском, даже когда конкретные слова различаются.
Для смешанных языковых документов кросс-языковая архитектура XLM-RoBERTa означает, что модели не нужно "переключаться" между языковыми моделями на границе документа. Она обрабатывает текст как непрерывную последовательность, применяя одинаковую способность распознавания сущностей независимо от языкового перехода.
Это не полное решение — языковая специфическая дообучение на немецких, французских и других языковых данных обучения обеспечивает дополнительную точность для каждого языка в отдельности. Но кросс-языковая базовая модель обеспечивает надежное обнаружение через языковые границы, которые однолингвистические модели обрабатывают непоследовательно.
Для швейцарских, бельгийских и других многонациональных организаций, чьи документы регулярно пересекают языковые границы, архитектурное различие между однолингвистическим и кросс-языковым NER напрямую переводится в результаты соблюдения норм: сущности, пропущенные на языковых границах в однолингвистических инструментах, обнаруживаются кросс-языковыми архитектурами.
Источники: