Пропускът в съответствието с RTL
Арабският и ивритът представляват систематичен неуспешно откриване на PII за организации, използващи инструменти, създадени предимно за езици с латиница отляво надясно. Проблемът не е само насочен. Скриптовете отдясно наляво изискват различна токенизация, различна логика на сегментиране и различно откриване на граници на обекти в сравнение с LTR подходите. Стандартните NER системи, обучени на английски данни, прилагат допускания за LTR сегментиране, които създават неправилни граници на обекти в текст на арабски и иврит.
Освен насочеността, арабската морфология добавя по-дълбоко предизвикателство. Арабският използва система, базирана на корен, при която един корен може да произведе десетки повърхностни форми чрез префикси и суфикси. Името на човек - Мохамед - може да се появи като "Мохамед", "Ал-Мохамед", "бин Мохамед", "Мохамед ал-Рашид" или няколко склонени форми в зависимост от граматическия контекст. Моделите на регулярни изрази, предназначени за западни формати на имена, не могат да уловят тази морфологична вариация. Модел на ML, обучен предимно на английски данни, ще пропусне алтернативните повърхностни форми.
GDPR не разпознава езика като граница на съответствие. Дружество от ЕС, обработващо кореспонденция на клиенти на арабски език от клиенти на MENA, трябва да прилага същите стандарти за защита на данните, както при кореспонденцията на френски език. Техническият пропуск за откриване на арабски PII е нарушение на правното съответствие съгласно член 32 от GDPR.
Случаят на използване на KYC
Финтех компания в Дубай, обработваща KYC (Know Your Customer) документи за клиенти от ЕС, илюстрира модела. KYC документите за арабски клиенти съдържат имена на клиенти на арабски, идентификационни номера на ОАЕ Емирства (15-цифрен формат) и адреси на арабски шрифт заедно с бизнес кореспонденцията на английски.
Форматът на ID на Emirates — 784-XXXX-XXXXXXX-X — има специфична структура: код на държавата 784, година на раждане, седемцифрена последователност, контролна цифра. Западните PII инструменти, които нямат специфични за ОАЕ дефиниции на обекти, изобщо не могат да открият този формат на идентификатор. Полетата за арабски имена се обработват от NER с латински шрифт, което води до неправилно сегментиране. Резултатът: систематична невидимост на PII в работните процеси за съответствие с KYC.
За организации по задължения по GDPR, покриващи тези данни, техническият пропуск създава пряка регулаторна експозиция. GDPR Член 32 изисква „подходящи технически и организационни мерки“ — система, която не може да открие идентификатори на 22% от езиците в света, не е подходяща техническа мярка.
Документи на иврит и смесени езици
Ивритът представлява свързани предизвикателства. Еврейската азбука се пише отдясно наляво; Израелските идентификационни номера имат специфичен алгоритъм за проверка (контролна сума, подобна на Luhn за 9-цифрени израелски идентификационни номера). Израелските правни документи може да включват текст на иврит, текст на арабски и текст на английски в един и същи документ — особено в търговски договори, където ивритът е основният език, английските условия за обслужване са включени чрез препратка, а арабският се използва за арабскоговорящи страни.
Документите на смесени езици с множество скриптове в един и същ текстов блок изискват откриване на скрипт преди разпознаване на обект. Без откриване на скрипт, едно преминаване на NER може да приложи латинска токенизация към семитски скриптове, което води до напълно неправилно сегментиране.
Изследване, публикувано в Nature Scientific Reports (2025 г.), специално изследва междуезиковата производителност на NER за откриване на арабски PII, като установи F1 резултати от 0,60–0,83 за стандартни модели срещу 0,88+ за специално изградени междуезични подходи (XLM-RoBERTa, прецизно настроен на арабски NER данни).
Изискването за междуезична архитектура
Ефективното откриване на лични данни на арабски и иврит изисква три компонента, които обикновено липсват на инструментите на първо място в Запада:
Обработка на RTL текст: Съвместимост с двупосочен алгоритъм на Unicode за правилно изобразяване на текстовия поток и токенизация, съобразена с RTL, която зачита границите на думите в текста отдясно наляво.
Morphology-aware NER: Или морфологичен анализатор (Farasa за арабски, или еквивалентен) или модел на трансформатор, фино настроен на арабски/иврит NER данни, който е научил морфологична вариация.
Специфични за региона дефиниции на обекти: Emirates ID, Израелски ID, Саудитски национален ID, Египетски национален ID и други специфични за MENA формати на идентификатори изискват изрични дефиниции на тип обект със спецификации на формата.
Източници:
- [Nature Scientific Reports 2025: Междуезикова производителност на NER за откриване на PII на арабски] (https://www.nature.com/articles/s41598-025-04971-9)
- arXiv:2601.06347: Арабски NER бенчмаркове и XLM-RoBERTa оценка
- [GDPR Член 32: Изисквания за технически мерки за сигурност при обработката на данни] (https://gdpr-info.eu/art-32-gdpr/)