By · Last updated 2026-04-01

Tornar al BlogTècnic

DCP en arab i hebreu: les eines occidentals fallen

El RGPD no acaba al Bosfor. Les dades personals en arab i hebreu dins dels fluxos de treball empresarials de la UE estan sistematicament desprotegides. Deteccio cross-lingual amb XLM-RoBERTa i.

April 1, 20268 min llegit
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

La bretxa de compliment RTL

El RGPD no acaba al Bosfor. Les empreses de la UE que utilitzen eines amb alfabet llati tenen un punt cec real, i en gran mesura ignorat.

El problema no es nomes la direccio del text. Els scripts de dreta a esquerra necessiten una tokenitzacio diferent, una segmentacio diferent. Els limits de les entitats funcionen de manera diferent que en el text d'esquerra a dreta. Els sistemes NER entrenats en angles apliquen regles LTR. Aquestes regles fallen amb el text RTL i produeixen limits d'entitat incorrectes.

La morfologia araba complica les coses encara mes. La llengua usa arrels. Una arrel dona desenes de formes de paraules. Un nom com Mohammed pot apareixer com "Al-Mohammed", "bin Mohammed" o "Mohammed al-Rashid". Els patrons regex construits per a noms occidentals no troben aquestes formes. Els models entrenats en angles tampoc.

El RGPD no tracta la llengua com una frontera de compliment. Una empresa de la UE que processa correu de clients MENA ha de complir les mateixes normes que per al correu frances. No detectar dades personals en text RTL es un incompliment legal de l'article 32 del RGPD.

El cas d'us KYC

Una fintech de Dubai que processa documents KYC per a clients de la UE mostra aixo clarament.

Els fitxers KYC de clients arabs contenen noms en script RTL, IDs d'Emirats dels EAU i adreces RTL. Aquests coexisteixen amb text empresarial en angles.

El format de l'ID d'Emirats es 784-XXXX-XXXXXXX-X. Codi de pais 784. Any de naixement. Set digits. Digit de control. Les eines occidentals de dades personals sense definicions d'entitats EAU no poden trobar aquest format. Els camps de nom passen per NER d'script llati. La segmentacio es incorrecta. Les dades personals es tornen invisibles en el flux de treball.

Per a empreses amb obligacions RGPD sobre aquestes dades, la bretxa crea un risc legal real. L'article 32 del RGPD requereix mesures tecniques adequades. Una eina que no detecta identificadors en el 22% dels idiomes del mon no es una mesura adequada.

Hebreu i documents de llengua mixta

L'hebreu presenta problemes similars. El script va de dreta a esquerra. Els numeros d'identificacio israelians utilitzen un checksum, una prova similar a Luhn sobre nou digits.

Els documents legals israelians sovint barrejen hebreu, text en script arab i angles en un sol fitxer. Aixo es habitual en contractes on l'hebreu es la llengua principal i els termes anglesos s'afegeixen per referencia.

Els fitxers de script mixt necessiten deteccio de script abans de NER. Sense ella, una sola passada NER aplica regles llatines als scripts RTL. El resultat es incorrecte.

Una investigacio a Nature Scientific Reports (2025) va provar NER cross-lingual en dades personals RTL. Els models estandard van obtenir una F1 de 0,60-0,83. XLM-RoBERTa ajustat amb dades NER RTL va aconseguir 0,88 i mes.

El requisit d'arquitectura cross-lingual

Una bona deteccio de dades personals RTL necessita tres coses que les eines centrades en Occident solen tenir en manca.

Gestio de text RTL: Compliment bidireccional Unicode per al flux de text correcte. Tokenitzacio conscient del RTL que troba els limits de paraules en text de dreta a esquerra.

NER conscient de la morfologia: Un analitzador morfologic com Farasa per a l'arab, o un model transformer ajustat en dades NER RTL. El model ha d'haver apres la variacio morfologica.

Tipus d'entitats especifiques de la regio: L'ID d'Emirats, l'ID israelia, el DNI nacional saudita i el DNI nacional egipci necessiten cadascun definicions explicites amb regles de format. Les eines occidentals generiques no els tenen.

Veieu com el nostre pipeline NER multilingue gestiona la deteccio de scripts en 48 idiomes. Per a la llista completa de tipus d'identificadors MENA que suportem, visiteu el cataleg d'entitats. La nostra guia de compliment RGPD cobreix com les bretxes de deteccio creen exposicio a l'article 32.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.