O ponto cego RTL na conformidade
O RGPD não termina no Bósforo. As empresas da UE que usam ferramentas criadas para texto em script latino têm um ponto cego. É real e amplamente ignorado.
O problema não é apenas a direção do texto. Scripts da direita para a esquerda precisam de tokenização diferente. Precisam de segmentação diferente. Os limites de entidades funcionam de forma diferente do texto LTR. Os sistemas NER treinados em inglês aplicam regras LTR. Essas regras falham no texto RTL. Elas produzem limites de entidades errados.
A morfologia árabe complica mais as coisas. O idioma usa raízes. Uma raiz produz dezenas de formas de palavras. Um nome como Mohammed pode aparecer como "Al-Mohammed", "bin Mohammed" ou "Mohammed al-Rashid". Os padrões de expressão regular criados para nomes ocidentais não capturam essas formas. Os modelos treinados em inglês também não as capturam.
O RGPD não trata o idioma como limite de conformidade. Uma empresa da UE que processa correspondência de clientes da região MENA deve cumprir as mesmas regras que para correspondência em francês. Não detetar dados pessoais em texto RTL é uma falha legal ao abrigo do Artigo 32 do RGPD.
O caso de uso KYC
Uma fintech em Dubai que processa documentos KYC para clientes da UE ilustra isso bem.
Os ficheiros KYC de clientes árabes contêm nomes em script RTL, Emirates IDs dos Emirados Árabes Unidos e endereços RTL. Estes estão junto a textos comerciais em inglês.
O formato do Emirates ID é 784-XXXX-XXXXXXX-X. Código de país 784. Ano de nascimento. Sete dígitos. Dígito de verificação. As ferramentas de deteção de dados pessoais sem definições de entidades específicas dos Emirados não conseguem encontrar este formato. Os campos de nomes passam por NER de script latino. A segmentação está errada. Os dados pessoais tornam-se invisíveis no fluxo de trabalho.
Para empresas com obrigações RGPD sobre estes dados, a lacuna cria risco legal real. O Artigo 32 do RGPD exige medidas técnicas adequadas. Uma ferramenta que não detetar identificadores em 22% das línguas do mundo não é uma medida adequada.
Documentos em hebraico e multilingues
O hebraico apresenta problemas semelhantes. O script é escrito da direita para a esquerda. Os números de identidade israelenses usam uma soma de verificação — um teste tipo Luhn sobre nove dígitos.
Os documentos legais israelenses misturam frequentemente hebraico, texto em script árabe e inglês no mesmo ficheiro. Isto é comum em contratos onde o hebraico é a língua principal e os termos em inglês são incorporados por referência.
Documentos com scripts mistos precisam de deteção de script antes do NER. Sem ela, uma única passagem NER aplica regras latinas a scripts RTL. O resultado está errado.
Uma investigação publicada em Nature Scientific Reports (2025) testou NER multilingue em dados pessoais RTL. Os modelos padrão obtiveram pontuações F1 de 0,60–0,83. XLM-RoBERTa ajustado em dados NER RTL obteve 0,88 e acima.
A arquitetura multilingue necessária
Uma boa deteção de dados pessoais RTL necessita de três coisas que as ferramentas centradas no ocidente geralmente não têm.
Tratamento de texto RTL: Conformidade com o algoritmo bidirecional Unicode para fluxo de texto correto. Tokenização adaptada ao RTL que identifica os limites de palavras em texto da direita para a esquerda.
NER com consciência morfológica: Um analisador morfológico como Farasa para árabe, ou um modelo transformer ajustado em dados NER RTL. O modelo deve ter aprendido variação morfológica.
Tipos de entidades específicos da região: Emirates ID, ID israelense, ID nacional saudita e ID nacional egípcio precisam cada um de definições explícitas com regras de formato. As ferramentas ocidentais genéricas não as incluem.
Veja como o nosso pipeline NER multilingue lida com a deteção de scripts em 48 línguas. Para a lista completa de tipos de identificadores da região MENA que suportamos, visite o catálogo de entidades. O nosso guia de conformidade RGPD explica como as lacunas de deteção criam exposição ao Artigo 32.