RTL atbilstības robi
VDAR neapstājas pie Bosfora. ES uzņēmumiem, kas izmanto rīkus latīņu alfabētam, ir akls punkts. Tas ir reāls un lielā mērā tiek ignorēts.
Problēma nav tikai teksta virziens. Labās puses teksti prasa atšķirīgu marķēšanu. Tie prasa atšķirīgu segmentāciju. Entītiju robežas darbojas savādāk nekā kreisās puses tekstos. NER sistēmas, kas apmācītas uz angļu valodas, piemēro kreisās puses noteikumus. Šie noteikumi lūzt labās puses tekstā. Tie dod nepareizas entītiju robežas.
Arābu morfoloģija visu apgrūtina. Valoda izmanto saknes. No vienas saknes rodas desmitiem vārdu formu. Vārds kā Muhameds var parādīties kā "Al-Muhameds", "bin Muhameds" vai "Muhameds al-Rašids". Regulārās izteiksmes, kas veidotas Rietumu vārdiem, šīs formas izlaiž. Modeļi, kas apmācīti uz angļu valodas, tos arī izlaiž.
VDAR neuzskata valodu par atbilstības robežu. ES uzņēmumam, kas apstrādā klientu pastu no MENA klientiem, jāievēro tie paši noteikumi kā franču pastam. RTL tekstā izlaista PII ir juridisks pārkāpums saskaņā ar VDAR 32. pantu.
KYC izmantošanas gadījums
Dubajā bāzēts fintech, kas apstrādā KYC dokumentus ES klientiem, to skaidri parāda.
KYC faili arābu klientiem satur vārdus RTL rakstā, AAE Emirates ID un RTL adreses. Šie dati atrodas blakus angļu biznesa tekstam.
Emirates ID formāts ir 784-XXXX-XXXXXXX-X. Valsts kods 784. Dzimšanas gads. Septiņi cipari. Pārbaudes cipars. Rietumu PII rīki bez AAE entītiju definīcijām nevar atrast šo formātu. Vārdu lauki tiek apstrādāti ar latīņu alfabēta NER. Segmentācija ir nepareiza. PII kļūst neredzama darbplūsmā.
Uzņēmumiem ar VDAR pienākumiem attiecībā uz šiem datiem, robi rada reālus juridiskos riskus. VDAR 32. pants prasa atbilstošus tehniskos pasākumus. Rīks, kas izlaiž identifikatorus 22% no pasaules valodām, nav atbilstošs pasākums.
Ivrita un jauktvalodu dokumenti
Ivritam ir līdzīgas problēmas. Raksts iet no labās uz kreiso. Izraēlas ID numuri izmanto kontrolsummu — Luhn tipa pārbaudi deviņiem cipariem.
Izraēlas juridiskie dokumenti bieži viena faila ietvaros sajauc ivrita, arābu raksta tekstu un angļu valodu. Tas ir izplatīti līgumos, kur ivrita ir galvenā valoda un angļu termini pievienoti ar atsauci.
Jauktu rakstu failiem pirms NER nepieciešama raksta noteikšana. Bez tās viens NER caurums piemēro latīņu noteikumus RTL rakstiem. Rezultāts ir nepareizs.
Pētījums Nature Scientific Reports (2025) testēja starpvalodu NER RTL PII. Standarta modeļi ieguva F1 0,60–0,83. XLM-RoBERTa, kalibrēts uz RTL NER datiem, ieguva 0,88 un augstāk.
Starpvalodu arhitektūras prasība
Labai RTL PII atklāšanai nepieciešamas trīs lietas, kas Rietumu pirmajiem rīkiem parasti trūkst.
RTL teksta apstrāde: Unicode divvirzienu atbilstība pareizai teksta plūsmai. RTL apzinīga marķēšana, kas atrod vārdu robežas labās puses tekstā.
Morfoloģiski apzinīga NER: Morfoloģisks analizators kā Farasa arābu valodai vai transformatora modelis, kalibrēts uz RTL NER datiem. Modelim jābūt apguvušam morfoloģisko variāciju.
Reģionam raksturīgi entītiju tipi: Emirates ID, Izraēlas ID, Saūda Arābijas nacionālais ID un Ēģiptes nacionālais ID katram nepieciešamas skaidras definīcijas ar formāta noteikumiem. Ģenēriski Rietumu rīki tās nesatur.
Skatiet, kā mūsu daudzvalodu NER cauruļvads apstrādā raksta noteikšanu 48 valodās. Pilnam MENA identifikatoru tipu sarakstam apmeklējiet entītiju katalogu. Mūsu VDAR atbilstības ceļvedis aptver, kā atklāšanas robiņi rada 32. panta ekspozīciju.