La bretxa de compliment RTL
El RGPD no acaba al Bosfor. Les empreses de la UE que utilitzen eines amb alfabet llati tenen un punt cec real, i en gran mesura ignorat.
El problema no es nomes la direccio del text. Els scripts de dreta a esquerra necessiten una tokenitzacio diferent, una segmentacio diferent. Els limits de les entitats funcionen de manera diferent que en el text d'esquerra a dreta. Els sistemes NER entrenats en angles apliquen regles LTR. Aquestes regles fallen amb el text RTL i produeixen limits d'entitat incorrectes.
La morfologia araba complica les coses encara mes. La llengua usa arrels. Una arrel dona desenes de formes de paraules. Un nom com Mohammed pot apareixer com "Al-Mohammed", "bin Mohammed" o "Mohammed al-Rashid". Els patrons regex construits per a noms occidentals no troben aquestes formes. Els models entrenats en angles tampoc.
El RGPD no tracta la llengua com una frontera de compliment. Una empresa de la UE que processa correu de clients MENA ha de complir les mateixes normes que per al correu frances. No detectar dades personals en text RTL es un incompliment legal de l'article 32 del RGPD.
El cas d'us KYC
Una fintech de Dubai que processa documents KYC per a clients de la UE mostra aixo clarament.
Els fitxers KYC de clients arabs contenen noms en script RTL, IDs d'Emirats dels EAU i adreces RTL. Aquests coexisteixen amb text empresarial en angles.
El format de l'ID d'Emirats es 784-XXXX-XXXXXXX-X. Codi de pais 784. Any de naixement. Set digits. Digit de control. Les eines occidentals de dades personals sense definicions d'entitats EAU no poden trobar aquest format. Els camps de nom passen per NER d'script llati. La segmentacio es incorrecta. Les dades personals es tornen invisibles en el flux de treball.
Per a empreses amb obligacions RGPD sobre aquestes dades, la bretxa crea un risc legal real. L'article 32 del RGPD requereix mesures tecniques adequades. Una eina que no detecta identificadors en el 22% dels idiomes del mon no es una mesura adequada.
Hebreu i documents de llengua mixta
L'hebreu presenta problemes similars. El script va de dreta a esquerra. Els numeros d'identificacio israelians utilitzen un checksum, una prova similar a Luhn sobre nou digits.
Els documents legals israelians sovint barrejen hebreu, text en script arab i angles en un sol fitxer. Aixo es habitual en contractes on l'hebreu es la llengua principal i els termes anglesos s'afegeixen per referencia.
Els fitxers de script mixt necessiten deteccio de script abans de NER. Sense ella, una sola passada NER aplica regles llatines als scripts RTL. El resultat es incorrecte.
Una investigacio a Nature Scientific Reports (2025) va provar NER cross-lingual en dades personals RTL. Els models estandard van obtenir una F1 de 0,60-0,83. XLM-RoBERTa ajustat amb dades NER RTL va aconseguir 0,88 i mes.
El requisit d'arquitectura cross-lingual
Una bona deteccio de dades personals RTL necessita tres coses que les eines centrades en Occident solen tenir en manca.
Gestio de text RTL: Compliment bidireccional Unicode per al flux de text correcte. Tokenitzacio conscient del RTL que troba els limits de paraules en text de dreta a esquerra.
NER conscient de la morfologia: Un analitzador morfologic com Farasa per a l'arab, o un model transformer ajustat en dades NER RTL. El model ha d'haver apres la variacio morfologica.
Tipus d'entitats especifiques de la regio: L'ID d'Emirats, l'ID israelia, el DNI nacional saudita i el DNI nacional egipci necessiten cadascun definicions explicites amb regles de format. Les eines occidentals generiques no els tenen.
Veieu com el nostre pipeline NER multilingue gestiona la deteccio de scripts en 48 idiomes. Per a la llista completa de tipus d'identificadors MENA que suportem, visiteu el cataleg d'entitats. La nostra guia de compliment RGPD cobreix com les bretxes de deteccio creen exposicio a l'article 32.