RTL-ի Համապատասխանության Բացը
GDPR-ը Բոսֆորի ափին չի ավարտվում: Լատինատառ գործիքներ կիրառող ԵՄ ընկերությունները կույր կետ ունեն: Այն իրական է և մեծ մասամբ անտեսված:
Հիմնախնդիրը միայն տեքստի ուղղությունը չէ: Աջ-ձախ (RTL) գրատառ հերթականությամբ գրությունները պահանջում են տարբեր tokenization: Դրանք պահանջում են տարբեր հատվածականացում: Կազմատոմսի սահմանները LTR տեքստում տարբեր կերպ են գործում: Անգլերենի վրա ուսուցանված NER համակարգերը LTR կանոններ են կիրառում: Այդ կանոնները RTL տեքստի վրա սխալ արդյունք են տալիս: Դրանք սխալ կազմատոմսային սահմաններ են ստեղծում:
Արաբերեն ձևաբանությունն ավելի է բարդացնում: Լեզուն արմատային կառուցվածք ունի: Մեկ արմատը տասնյակ բառաձևեր է ծնում: Mohammed անունը կարող է հայտնվել որպես "Al-Mohammed", "bin Mohammed" կամ "Mohammed al-Rashid": Արևմտյան անուններ ճանաչելու Regex ձևանմուշները այդ ձևերը բաց են թողնում: Անգլերենի վրա ուսուցված մոդելներն ևս բաց են թողնում դրանք:
GDPR-ն լեզուն համապատասխանության սահման չի համարում: MENA հաճախորդների նամակագրությունը մշակող ԵՄ ընկերությունը պարտավոր է կատարել նույն կանոնները, ինչ ֆրանսերեն նամակագրության դեպքում: RTL տեքստում PII-ն բաց թողնելն GDPR-ի 32-րդ հոդվածի ներքո իրավական ձախողում է:
KYC-ի Կիրառման Դեպքը
Դուbayի ֆինտեք ընկերությունը, որն ԵՄ հաճախորդների KYC փաստաթղթերն է մշակում, սա հստակ ցույց է տալիս:
Արաբ հաճախորդների KYC ֆայлերը ներառում են RTL-ով գրված անուններ, ՄԱԷ Emirates ID-ներ և RTL հասցեներ: Դրանք հայտնվում են անգլերեն բիզնեսային տեքստի կողքին:
Emirates ID-ի ձևաչափն է 784-XXXX-XXXXXXX-X: Երկրի կոդ 784: Ծննդյան տարեթիվ: Յոթ թվանշան: Ստուգիչ թվանշան: ՄԱԷ-ի կազմատոմսային սահմանումներ չունեցող արևմտյան PII գործիքները այս ձևաչափը չեն կարող հայտնաբերել: Անուն-ազգանուն դաշտերն անցնում են լատինատառ NER-ով: Հատվածականացումն սխալ է: PII-ն անտեսանելի է դառնում աշխատանքային հոսքում:
Այս տվյալների վրա GDPR-ի պարտավորություններ ունեցող ընկերությունների համար բացն ստեղծում է իրական իրավական ռիսկ: GDPR-ի 32-րդ հոդվածը պահանջում է համապատասխան տեխնիկական միջոցներ: Աշխարհի լեզուների 22%-ում նույնացնիչներ բաց թողնող գործիքն ադեկվատ միջոց չէ:
Եբրայերեն և Խառնուրդ-Լեզու Փաստաթղթեր
Եbrayereney-n nman khndirnere ounee: Skriptн anjay-dzakhov e chatsum: Israelakan ID amarnere Luhn-anman sterkachakayin test en innak tsifrayov:
Israelakan iravakan pastataghtery hachakh mek fayloum kharnum en ebraieren, arababatar tekst yev anglieren: Sovorabar e paimananeroum, vortegh ebraiereenny himnain lezun e, ev anglieren terminnerny antsherov en avelatsnum:
Kharnurak-skript faylery NER-its araj skript haytnaberoutyun pakhtum en: Aranc ays, mek NER andzoum latinatarr kanonn e karum RTL skriptneri vra: Ardyunky skhal e:
Nature Scientific Reports (2025) ousoumsiroutyouny khach-lezvaikan NER-y RTL PII-i vra stugel e: Standart modelner F1 0.60-0.83 en hargtsel: RTL NER tvyalneri vra hargortsvats XLM-RoBERTa-n 0.88 ev aveli e hargtsel:
Khach-Lezvaikan Chtarapetoutyan Pahanjy
Lav RTL PII haytnaberoutyan hamar anhrashesh e yerrek ban, vorony sovoras batakum e arevmtyan gortsikneroum:
RTL teksty mshakoutyun: Unicode-i erkuugghutyan hamapataskhoutyan hamar char tekstayin hovask: RTL-hasnvats tokenization, or gtnoum e bari sahmanner ajih-dzakhou tekstoum:
Dzevabanayin NER: Dzevabanakayin verlutsich, aynpes Farasa-n arabi hamar, kam RTL NER tvylneri vra harkortvats transformer model: Modely petke e usnutse dzevabanayin bazmanutyan masin:
Tertsazin hatuk kazmatomi tesakner: Emirates ID-y, Israeli ID-y, Saudi Azgayin ID-y ev Egyptian Azgayin ID-y yorurrestsin ounerin dzevacheri kanonn ounin hatuk sahmanutyun pahtum en: Chapaky arevmtyan gortsikner sarank chi ounin:
Tesek te inch pes mern bazmalezou NER hovask-n 48 lezunnerum skript haytnaberoutyun e katarooum: MENA-i nshanoghichneri amboghj tsatski hamar aytselerek kazmatomi katalog: Mern GDPR hamapataskhoutyan utsutsichy tsatsoum e te inch pes haytnaberoutyan batsery 32-rd hodvadzi azdeqoutyoun en stvorum: