De RTL Nalevingskloof
GDPR eindigt niet bij de Bosporus. EU-bedrijven die alleen Latijnse-schrift-tools gebruiken, hebben een blinde vlek voor rechts-naar-links schriften.
Het probleem gaat verder dan tekstrichting. RTL-schriften vereisen andere tokenisering, andere segmentatie. Entiteitsgrenzen werken anders dan in LTR-tekst. NER-systemen getraind op Engels passen LTR-regels toe — regels die breken op RTL-tekst.
Arabische morfologie maakt het moeilijker. De taal gebruikt wortels. Één wortel geeft tientallen woordvormen. Een naam zoals Mohammed kan verschijnen als "Al-Mohammed," "bin Mohammed," of "Mohammed al-Rashid." Regex-patronen gebouwd voor Westerse namen missen deze vormen.
GDPR behandelt taal niet als nalevingsgrens. Een EU-bedrijf dat klantenmail van MENA-cliënten verwerkt, moet aan dezelfde regels voldoen als voor Franse mail.
De KYC Use Case
Een Dubai-fintech die KYC-documenten verwerkt voor EU-cliënten toont dit duidelijk. KYC-bestanden voor Arabische cliënten bevatten namen in RTL-schrift, UAE Emirates ID's en RTL-adressen naast Engelse zakelijke tekst.
Het Emirates ID-formaat is 784-XXXX-XXXXXXX-X. Westerse PII-tools zonder UAE-entiteitsdefinities kunnen dit formaat niet vinden.
Hebreeuwse en Gemengde-Taaldocumenten
Hebreeuwse documenten lopen van rechts naar links. Israëlische ID-nummers gebruiken een Luhn-achtige checksum op negen cijfers.
Israëlische juridische documenten mixen vaak Hebreeuws, Arabisch schrift en Engels in één bestand. Gemengde-schrift-bestanden vereisen schriftdetectie vóór NER.
Research in Nature Scientific Reports (2025) testte cross-talige NER op RTL PII. Standaardmodellen scoorden F1 van 0,60-0,83. XLM-RoBERTa fijngestemd op RTL NER-data scoorde 0,88 en hoger.
De Cross-Talige Architectuurvereiste
Goede RTL PII-detectie vereist drie dingen:
- RTL-tekstverwering: Unicode bidirectionele naleving voor correct tekstverloop
- Morfologie-bewuste NER: Een morfologische analysator voor Arabisch, of een transformer fijngestemd op RTL NER-data
- Regio-specifieke entiteittypen: Emirates ID, Israëlisch ID, Saoedisch nationaal ID
Bekijk de entiteitscatalogus en GDPR-nalevingsgids.