Il divario di conformità per le scritture da destra a sinistra
Il GDPR non si ferma al Bosforo. Le aziende europee che utilizzano strumenti orientati alla scrittura latina hanno un punto cieco. È reale ed è in larga misura ignorato.
Il problema non riguarda solo la direzione del testo. Le scritture da destra a sinistra richiedono una tokenizzazione diversa e una segmentazione diversa. I confini delle entità funzionano in modo differente rispetto al testo da sinistra a destra. I sistemi NER addestrati sull'inglese applicano regole LTR che si rompono sul testo RTL, generando confini di entità errati.
La morfologia araba complica ulteriormente le cose. La lingua si basa su radici: da una singola radice derivano decine di forme. Un nome come Mohammed può comparire come "Al-Mohammed", "bin Mohammed" o "Mohammed al-Rashid". I pattern regex costruiti per nomi occidentali mancano queste varianti, e lo stesso vale per i modelli addestrati sull'inglese.
Il GDPR non considera la lingua come un confine di conformità. Un'azienda europea che elabora corrispondenza di clienti della regione MENA deve rispettare le stesse regole applicabili alla posta in francese. Non rilevare i dati personali in testo RTL è un'inadempienza giuridica ai sensi dell'Articolo 32 del GDPR.
Il caso d'uso KYC
Una fintech di Dubai che elabora documenti KYC per clienti europei illustra chiaramente il problema.
I fascicoli KYC per i clienti arabi contengono nomi in scrittura RTL, Emirates ID degli EAU e indirizzi RTL, affiancati a testo aziendale in inglese.
Il formato dell'Emirates ID è 784-XXXX-XXXXXXX-X: codice paese 784, anno di nascita, sette cifre, cifra di controllo. Gli strumenti occidentali privi di definizioni di entità per gli EAU non riescono a individuare questo formato. I campi nome vengono elaborati da sistemi NER orientati alla scrittura latina, con una segmentazione errata. Il risultato: i dati personali diventano invisibili nel flusso di lavoro.
Per le aziende con obblighi GDPR su questi dati, il divario crea un rischio giuridico concreto. L'Articolo 32 del GDPR richiede misure tecniche adeguate. Uno strumento che manca gli identificatori nel 22% delle lingue del mondo non può essere considerato una misura adeguata.
L'ebraico e i documenti multilingue
L'ebraico presenta problemi analoghi. La scrittura procede da destra a sinistra. I numeri di identificazione israeliani utilizzano un checksum — un test simile a Luhn su nove cifre.
I documenti legali israeliani spesso combinano ebraico, testo in scrittura araba e inglese in un unico file. È una situazione comune nei contratti in cui l'ebraico è la lingua principale e i termini inglesi sono incorporati per riferimento.
I file con scritture miste richiedono il rilevamento dello script prima del passaggio NER. Senza di esso, un singolo passaggio NER applica le regole latine alle scritture RTL, producendo output errati.
Una ricerca pubblicata su Nature Scientific Reports (2025) ha testato sistemi NER cross-linguistici su dati PII RTL. I modelli standard hanno ottenuto un F1 compreso tra 0,60 e 0,83. XLM-RoBERTa ottimizzato su dati NER RTL ha raggiunto 0,88 e oltre.
Il requisito architetturale cross-linguistico
Un rilevamento efficace dei dati personali RTL richiede tre componenti che gli strumenti orientati al mondo occidentale solitamente non possiedono.
Gestione del testo RTL: conformità Unicode bidirezionale per il corretto flusso del testo, con tokenizzazione RTL-aware in grado di identificare i confini delle parole nelle scritture da destra a sinistra.
NER con consapevolezza morfologica: un analizzatore morfologico come Farasa per l'arabo, o un modello transformer ottimizzato su dati NER RTL, che abbia appreso le variazioni morfologiche.
Tipi di entità specifici per regione: Emirates ID, numero di identificazione israeliano, Saudi National ID ed Egyptian National ID richiedono ciascuno definizioni esplicite con regole di formato. Gli strumenti occidentali generici non li includono.
Scopri come la nostra pipeline NER multilingue gestisce il rilevamento degli script in 48 lingue. Per l'elenco completo dei tipi di identificatori MENA supportati, visita il catalogo entità. La nostra guida alla conformità GDPR illustra come le lacune nel rilevamento creino esposizione ai sensi dell'Articolo 32.