By · Last updated 2026-04-01

Voltar ao BlogTécnico

A Lacuna de Conformidade no Oriente Médio...

O GDPR não termina no Bósforo. PII em árabe e hebraico nos fluxos de trabalho de negócios da UE está sistematicamente desprotegido.

April 1, 20268 min de leitura
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

O ponto cego RTL na conformidade

O RGPD não termina no Bósforo. As empresas da UE que usam ferramentas criadas para texto em script latino têm um ponto cego. É real e amplamente ignorado.

O problema não é apenas a direção do texto. Scripts da direita para a esquerda precisam de tokenização diferente. Precisam de segmentação diferente. Os limites de entidades funcionam de forma diferente do texto LTR. Os sistemas NER treinados em inglês aplicam regras LTR. Essas regras falham no texto RTL. Elas produzem limites de entidades errados.

A morfologia árabe complica mais as coisas. O idioma usa raízes. Uma raiz produz dezenas de formas de palavras. Um nome como Mohammed pode aparecer como "Al-Mohammed", "bin Mohammed" ou "Mohammed al-Rashid". Os padrões de expressão regular criados para nomes ocidentais não capturam essas formas. Os modelos treinados em inglês também não as capturam.

O RGPD não trata o idioma como limite de conformidade. Uma empresa da UE que processa correspondência de clientes da região MENA deve cumprir as mesmas regras que para correspondência em francês. Não detetar dados pessoais em texto RTL é uma falha legal ao abrigo do Artigo 32 do RGPD.

O caso de uso KYC

Uma fintech em Dubai que processa documentos KYC para clientes da UE ilustra isso bem.

Os ficheiros KYC de clientes árabes contêm nomes em script RTL, Emirates IDs dos Emirados Árabes Unidos e endereços RTL. Estes estão junto a textos comerciais em inglês.

O formato do Emirates ID é 784-XXXX-XXXXXXX-X. Código de país 784. Ano de nascimento. Sete dígitos. Dígito de verificação. As ferramentas de deteção de dados pessoais sem definições de entidades específicas dos Emirados não conseguem encontrar este formato. Os campos de nomes passam por NER de script latino. A segmentação está errada. Os dados pessoais tornam-se invisíveis no fluxo de trabalho.

Para empresas com obrigações RGPD sobre estes dados, a lacuna cria risco legal real. O Artigo 32 do RGPD exige medidas técnicas adequadas. Uma ferramenta que não detetar identificadores em 22% das línguas do mundo não é uma medida adequada.

Documentos em hebraico e multilingues

O hebraico apresenta problemas semelhantes. O script é escrito da direita para a esquerda. Os números de identidade israelenses usam uma soma de verificação — um teste tipo Luhn sobre nove dígitos.

Os documentos legais israelenses misturam frequentemente hebraico, texto em script árabe e inglês no mesmo ficheiro. Isto é comum em contratos onde o hebraico é a língua principal e os termos em inglês são incorporados por referência.

Documentos com scripts mistos precisam de deteção de script antes do NER. Sem ela, uma única passagem NER aplica regras latinas a scripts RTL. O resultado está errado.

Uma investigação publicada em Nature Scientific Reports (2025) testou NER multilingue em dados pessoais RTL. Os modelos padrão obtiveram pontuações F1 de 0,60–0,83. XLM-RoBERTa ajustado em dados NER RTL obteve 0,88 e acima.

A arquitetura multilingue necessária

Uma boa deteção de dados pessoais RTL necessita de três coisas que as ferramentas centradas no ocidente geralmente não têm.

Tratamento de texto RTL: Conformidade com o algoritmo bidirecional Unicode para fluxo de texto correto. Tokenização adaptada ao RTL que identifica os limites de palavras em texto da direita para a esquerda.

NER com consciência morfológica: Um analisador morfológico como Farasa para árabe, ou um modelo transformer ajustado em dados NER RTL. O modelo deve ter aprendido variação morfológica.

Tipos de entidades específicos da região: Emirates ID, ID israelense, ID nacional saudita e ID nacional egípcio precisam cada um de definições explícitas com regras de formato. As ferramentas ocidentais genéricas não as incluem.

Veja como o nosso pipeline NER multilingue lida com a deteção de scripts em 48 línguas. Para a lista completa de tipos de identificadores da região MENA que suportamos, visite o catálogo de entidades. O nosso guia de conformidade RGPD explica como as lacunas de deteção criam exposição ao Artigo 32.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.