Јазот во усогласеноста за RTL писма
GDPR не завршува на Босфорот. Компаниите од ЕУ кои користат алатки за латинично писмо имаат слепа точка. Таа е реална и во голема мера се игнорира.
Проблемот не е само насоката на текстот. Писмата со движење од десно на лево (RTL) бараат поинаква токенизација. Бараат поинаква сегментација. Границите на ентитетите функционираат поинаку отколку во LTR текст. NER системите обучени на англиски применуваат LTR правила. Тие правила се кршат на RTL текст и даваат погрешни граници на ентитети.
Арапската морфологија ги усложнува работите дополнително. Јазикот користи корени. Еден корен создава десетици форми на зборови. Едно име како Мохамед може да се јави во форми "Ал-Мохамед", "бин Мохамед" или "Мохамед ал-Рашид". Регекс шемите изградени за западни имиња ги пропуштаат овие форми. Моделите обучени на англиски, исто така, ги пропуштаат.
GDPR не третира јазик како граница на усогласеноста. Компанија од ЕУ која обработува пошта на клиенти од MENA регионот мора да ги исполни истите правила како и за француска пошта. Пропуштањето на лични податоци во RTL текст е правен неуспех согласно GDPR член 32.
Случајот за употреба на KYC
Дубајски финтек кој обработува KYC документи за клиенти од ЕУ јасно го илустрира ова.
KYC досиејата за арапски клиенти содржат имиња напишани во RTL писмо, ОАЕ Emirates ID броеви и RTL адреси. Тие се наоѓаат покрај деловен текст на англиски.
Форматот на Emirates ID е 784-XXXX-XXXXXXX-X. Државен код 784. Година на раѓање. Седум цифри. Контролна цифра. Западните PII алатки без ОАЕ дефиниции на ентитети не можат да го пронајдат овој формат. Полињата со имиња поминуваат низ NER за латинично писмо. Сегментацијата е погрешна. Личните податоци стануваат невидливи во работниот процес.
За фирмите со GDPR обврски за овие податоци, јазот создава реален правен ризик. GDPR член 32 бара соодветни технички мерки. Алатка која пропушта идентификатори во 22% од светските јазици не претставува соодветна мерка.
Хебрејски и документи со мешани јазици
Хебрејскиот претставува слични проблеми. Писмото тече од десно на лево. Израелскиот ID број користи контролна сума -- тест сличен на Luhn на девет цифри.
Израелските правни документи честопати мешаат хебрејски, текст со арапско писмо и англиски во еден фајл. Ова е вообичаено во договори каде хебрејскиот е главен јазик, а англиски термини се додаваат со упатување.
Фајловите со мешани писма бараат откривање на писмото пред NER. Без тоа, единечен NER премин применува латински правила на RTL писма. Резултатот е погрешен.
Истражување во Nature Scientific Reports (2025) тестираше меѓујазичен NER на RTL лични податоци. Стандардните модели постигнаа F1 резултат од 0,60-0,83. XLM-RoBERTa фино подесен на RTL NER податоци постигна 0,88 и повисоко.
Барањето за меѓујазична архитектура
Добрата RTL детекција на лични податоци бара три работи кои западно-ориентираните алатки обично ги немаат.
Ракување со RTL текст: Усогласеност со Unicode двонасочноста за правилен тек на текстот. RTL-свесна токенизација која ги наоѓа границите на зборовите во текст со движење од десно на лево.
NER со свест за морфологија: Морфолошки анализатор како Farasa за арапски, или трансформаторски модел фино подесен на RTL NER податоци. Моделот мора да ги научил морфолошките варијации.
Регионално специфични типови ентитети: Emirates ID, израелски ID, саудиски национален ID и египетски национален ID бараат секој посебни дефиниции со правила за формат. Генеричките западни алатки ги немаат овие.
Видете како нашиот повеќејазичен NER pipeline управува со откривањето на писмото преку 48 јазика. За целосната листа на MENA типови идентификатори кои ги поддржуваме, посетете го каталогот на ентитети. Нашиот водич за усогласеност со GDPR покрива како јазовите во детекцијата создаваат изложеност согласно член 32.