Документи, които противоречат на едноезичните инструменти
Трудовият договор на швейцарска фармацевтична компания не е написан на един език. Швейцария има четири официални езика. Документите, изготвени от швейцарски организации, рутинно смесват немски за основния договорен орган, френски за определени регулаторни клаузи и английски за раздели за определяне на международни стандарти — понякога в рамките на един параграф.
Протоколите на борда на белгийска компания съдържат доклади на холандски с официални резолюции на френски и раздели с резюме на английски за международни инвеститори. Споразумението за обработка на данни на мултинационална корпорация има английски технически спецификации, немски клаузи за правата на субектите на данни и френска информация за връзка с DPA.
Това не са необичайни документи. Те са стандартен изход на мултинационални организации, работещи на многоезични пазари. И едноезичните инструменти за откриване на PII систематично се провалят при тях.
45% по-висок процент пропуски
Изследване, сравняващо едноезични и многоезични NER подходи към документи на смесени езици, установи, че документите на смесени езици причиняват 45% по-висок процент на пропуски на PII в едноезични инструменти за NER в сравнение с тяхното представяне върху чисто едноезични документи.
Източникът на празнината е архитектурен: едноезичен NER модел, обучен на немски текст, научава немски модели на имена, немски конвенции за имена на организации и немски адресни структури. Когато този модел се натъкне на френскоезична секция в преобладаващо немски документ, той работи извън своето разпространение на обучение. Френските имена на лица, френски адреси и френски организационни идентификатори в този раздел са обект на намалена точност на откриване - не защото моделът е лошо обучен, а защото е бил обучен на грешен език за този раздел.
Допълнителната констатация: 72% от предприятията в ЕС обработват документи на 3+ езика едновременно (EDPB 2024) и многоезичните HR документи съдържат 67% повече PII на страница от едноезичните еквиваленти (Gartner 2024). Комбинацията от по-висока плътност на PII и по-висок процент пропуски усложнява пропуските в съответствието в организациите, които обработват многоезични HR, правни и търговски документи.
Как езиковите граници създават грешки при откриване
Провалът не е равномерен. PII на границите на езика — където раздел преминава от един език на друг — е особено уязвим.
Трудовият договор може да съдържа клауза като: „Der Arbeitnehmer (Служител: Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu...“ — смесване на немска структура на изречението с френско име и рождена дата. NER модел на немски език среща френското име в позиция, в която очаква имена с немски образец и може да не успее да го класифицира правилно. Модел на френски език вижда контекстни думи на немски и не може надеждно да идентифицира заобикалящата структура на документа.
Наблюдението на Gartner от 2024 г., че многоезичните HR документи съдържат 67% повече PII на страница, отколкото едноезичните еквиваленти, прави тази грешка при откриване на граници особено значима: HR документите са сред типовете документи с най-висока плътност на PII и се произвеждат от многоезични организации в смесена езикова форма.
Решението за междуезичен трансформатор
XLM-RoBERTa (междуезичен езиков модел - Roberta) представлява различен архитектурен подход към този проблем. Вместо да обучава отделен модел за всеки език, XLM-RoBERTa се обучава на текст от 100 езика едновременно. Моделът научава, че задачите за разпознаване на обекти споделят модели в различните езици – че структурната връзка между името на човек и заобикалящите контекстни думи е подобна на немски, френски и английски дори когато конкретните думи се различават.
За документи със смесени езици, междуезиковата архитектура на XLM-RoBERTa означава, че моделът не трябва да „превключва“ между езикови модели на границата на документа. Той обработва текста като непрекъсната последователност, като прилага една и съща способност за разпознаване на обект, независимо от езиковия преход.
Това не е цялостно решение — специфичната за езика фина настройка на данните за немски, френски и други езикови обучения осигурява допълнителна точност за всеки език поотделно. Но междуезиковата базова линия осигурява надеждно откриване през езиковите граници, които едноезичните модели обработват непоследователно.
За швейцарски, белгийски и други многонационални организации, чиито документи рутинно пресичат езиковите граници, архитектурното разграничение между едноезични и междуезични NER се превежда директно в резултати за съответствие: обекти, пропуснати на езиковите граници в едноезични инструменти, се откриват от междуезични архитектури.
Източници:
- [Хибридни методи за многоезично откриване на PII: оценка на документи на смесени езици] (https://arxiv.org/html/2510.07551v1)
- [EDPB 2024: многоезична обработка на документи в предприятията на ЕС] (https://edpb.europa.eu)
- [Gartner 2024: Плътност на PII в многоезични документи за човешки ресурси] (https://www.gartner.com)