Il divario di conformità per le scritture da destra a sinistra

Il GDPR non si ferma al Bosforo. Le aziende europee che utilizzano strumenti orientati alla scrittura latina hanno un punto cieco. È reale ed è in larga misura ignorato.

Il problema non riguarda solo la direzione del testo. Le scritture da destra a sinistra richiedono una tokenizzazione diversa e una segmentazione diversa. I confini delle entità funzionano in modo differente rispetto al testo da sinistra a destra. I sistemi NER addestrati sull'inglese applicano regole LTR che si rompono sul testo RTL, generando confini di entità errati.

La morfologia araba complica ulteriormente le cose. La lingua si basa su radici: da una singola radice derivano decine di forme. Un nome come Mohammed può comparire come "Al-Mohammed", "bin Mohammed" o "Mohammed al-Rashid". I pattern regex costruiti per nomi occidentali mancano queste varianti, e lo stesso vale per i modelli addestrati sull'inglese.

Il GDPR non considera la lingua come un confine di conformità. Un'azienda europea che elabora corrispondenza di clienti della regione MENA deve rispettare le stesse regole applicabili alla posta in francese. Non rilevare i dati personali in testo RTL è un'inadempienza giuridica ai sensi dell'Articolo 32 del GDPR.

Il caso d'uso KYC

Una fintech di Dubai che elabora documenti KYC per clienti europei illustra chiaramente il problema.

I fascicoli KYC per i clienti arabi contengono nomi in scrittura RTL, Emirates ID degli EAU e indirizzi RTL, affiancati a testo aziendale in inglese.

Il formato dell'Emirates ID è 784-XXXX-XXXXXXX-X: codice paese 784, anno di nascita, sette cifre, cifra di controllo. Gli strumenti occidentali privi di definizioni di entità per gli EAU non riescono a individuare questo formato. I campi nome vengono elaborati da sistemi NER orientati alla scrittura latina, con una segmentazione errata. Il risultato: i dati personali diventano invisibili nel flusso di lavoro.

Per le aziende con obblighi GDPR su questi dati, il divario crea un rischio giuridico concreto. L'Articolo 32 del GDPR richiede misure tecniche adeguate. Uno strumento che manca gli identificatori nel 22% delle lingue del mondo non può essere considerato una misura adeguata.

L'ebraico e i documenti multilingue

L'ebraico presenta problemi analoghi. La scrittura procede da destra a sinistra. I numeri di identificazione israeliani utilizzano un checksum — un test simile a Luhn su nove cifre.

I documenti legali israeliani spesso combinano ebraico, testo in scrittura araba e inglese in un unico file. È una situazione comune nei contratti in cui l'ebraico è la lingua principale e i termini inglesi sono incorporati per riferimento.

I file con scritture miste richiedono il rilevamento dello script prima del passaggio NER. Senza di esso, un singolo passaggio NER applica le regole latine alle scritture RTL, producendo output errati.

Una ricerca pubblicata su Nature Scientific Reports (2025) ha testato sistemi NER cross-linguistici su dati PII RTL. I modelli standard hanno ottenuto un F1 compreso tra 0,60 e 0,83. XLM-RoBERTa ottimizzato su dati NER RTL ha raggiunto 0,88 e oltre.

Il requisito architetturale cross-linguistico

Un rilevamento efficace dei dati personali RTL richiede tre componenti che gli strumenti orientati al mondo occidentale solitamente non possiedono.

Gestione del testo RTL: conformità Unicode bidirezionale per il corretto flusso del testo, con tokenizzazione RTL-aware in grado di identificare i confini delle parole nelle scritture da destra a sinistra.

NER con consapevolezza morfologica: un analizzatore morfologico come Farasa per l'arabo, o un modello transformer ottimizzato su dati NER RTL, che abbia appreso le variazioni morfologiche.

Tipi di entità specifici per regione: Emirates ID, numero di identificazione israeliano, Saudi National ID ed Egyptian National ID richiedono ciascuno definizioni esplicite con regole di formato. Gli strumenti occidentali generici non li includono.

Scopri come la nostra pipeline NER multilingue gestisce il rilevamento degli script in 48 lingue. Per l'elenco completo dei tipi di identificatori MENA supportati, visita il catalogo entità. La nostra guida alla conformità GDPR illustra come le lacune nel rilevamento creino esposizione ai sensi dell'Articolo 32.

Fonti

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

Inizia Prova Gratuita Visualizza Funzionalità

PII in arabo e in ebraico: gli strumenti occidentali non bastano

Il divario di conformità per le scritture da destra a sinistra

Il caso d'uso KYC

L'ebraico e i documenti multilingue

Il requisito architetturale cross-linguistico

Fonti

Articoli Correlati

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pronto a proteggere i tuoi dati?

PII in arabo e in ebraico: gli strumenti occidentali non bastano

Il divario di conformità per le scritture da destra a sinistra

Il caso d'uso KYC

L'ebraico e i documenti multilingue

Il requisito architetturale cross-linguistico

Fonti

Articoli Correlati

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pronto a proteggere i tuoi dati?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow