Arapski i hebrejski PII: Zapadni alati zakazuju

GDPR ne prestaje na Bosporu. Arapski i hebrejski PII u EU poslovnim tokovima rada sustavno je nezasticen. XLM-RoBERTa visejezicna detekcija i.

George CurtaApril 1, 20268 min čitanja

Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Jaz u uskladenosti za RTL skripte

GDPR ne prestaje na Bosporu. EU tvrtke koje koriste alate za latinicne skripte imaju slijepu tocku. Ona je stvarna i uglavnom se ignorira.

Problem nije samo smjer teksta. Skripte koje se citaju s desna na lijevo zahtijevaju drugaciju tokenizaciju. Zahtijevaju drugacije segmentiranje. Granice entiteta funkcioniraju drugacije nego u LTR tekstu. NER sustavi obuceni na engleskom primjenjuju LTR pravila. Ta pravila se ne primjenjuju ispravno na RTL tekstu. Daju pogresne granice entiteta.

Arapska morfologija dodatno otezava stvar. Jezik koristi korijene. Jedan korijen daje desetke oblika rijeci. Ime poput Mohammed moze se pojaviti kao "Al-Mohammed", "bin Mohammed" ili "Mohammed al-Rashid". Regex uzorci izgradeni za zapadnjacka imena propustaju ove oblike. Modeli obuceni na engleskom takoder ih propustaju.

GDPR ne tretira jezik kao granicu uskladenosti. EU tvrtka koja obradjuje korespondenciju od MENA klijenata mora ispunjavati ista pravila kao i za francusku postu. Propustanje PII u RTL tekstu je pravni propust prema GDPR clanku 32.

Slucaj koristenja KYC

Dubajski fintech koji obradjuje KYC dokumente za EU klijente jasno ilustrira ovaj problem.

KYC datoteke za arapske klijente sadrze imena u RTL skripti, UAE Emirates ID-eve i RTL adrese. One su smjestene pored engleskog poslovnog teksta.

Format Emirates ID-a je 784-XXXX-XXXXXXX-X. Kod drzave 784. Godina rodjenja. Sedam znamenki. Kontrolna znamenka. Zapadnjacki PII alati bez UAE definicija entiteta ne mogu pronaci ovaj format. Polja s imenima prolaze kroz latinicni NER. Segmentacija je pogresna. PII postaje nevidljiv u radnom toku.

Za tvrtke s GDPR obvezama za te podatke, ovaj jaz stvara stvarni pravni rizik. GDPR clanak 32 zahtijeva odgovarajuce tehnicke mjere. Alat koji propusta identifikatore u 22% svjetskih jezika nije odgovarajuca mjera.

Hebrejski i dokumenti s mijesanim jezicima

Hebrejski predstavlja slicne probleme. Skripta se cita s desna na lijevo. Izraelski ID brojevi koriste kontrolni zbroj - test nalik Luhn algoritmu na devet znamenki.

Izraelski pravni dokumenti cesto mijesaju hebrejski, tekst arapske skripte i engleski u jednoj datoteci. To je uobicajeno u ugovorima gdje je hebrejski glavni jezik, a engleski termini se dodaju upucivanjem.

Datoteke s mijesanim skriptama zahtijevaju detekciju skripte prije NER-a. Bez toga, jedan NER prolaz primjenjuje latinicna pravila na RTL skripte. Rezultat je pogresan.

Istrazivanje u Nature Scientific Reports (2025.) testiralo je visejezicni NER za RTL PII. Standardni modeli postigli su F1 od 0,60-0,83. XLM-RoBERTa fino podesen na RTL NER podacima postigao je 0,88 i vise.

Zahtjev za visejezicnom arhitekturom

Dobra RTL PII detekcija zahtijeva tri stvari koje zapadnjacki alati obicno nemaju.

RTL rukovanje tekstom: Unicode dvosmjerna uskladenost za ispravni tok teksta. RTL svjesna tokenizacija koja pronalazi granice rijeci u tekstu koji se cita s desna na lijevo.

NER svjestan morfologije: Morfoloski analizator poput Farasa za arapski, ili transformer model fino podesen na RTL NER podacima. Model mora biti naucio morfoloski varijabilnost.

Tipovi entiteta specificni za regiju: Emirates ID, izraelski ID, saudijski nacionalni ID i egipatski nacionalni ID svaki zahtijeva eksplicitne definicije s pravilima formata. Genericni zapadnjacki alati ih nemaju.

Pogledajte kako nas visejezicni NER cjevovod rukuje detekcijom skripte u 48 jezika. Za potpuni popis MENA tipova identifikatora koje podrzavamo, posjetite katalog entiteta. Nas vodic za GDPR uskladenost pokriva kako jaz u detekciji stvara izlozenost prema clanku 32.

Izvori

Povezani Članci

Tehnički

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

Započnite Besplatno Suđenje Pogledajte Značajke

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

We follow these rules

GDPR (EU 2016/679).
ISO/IEC 27001:2022.
NIS2 (EU 2022/2555).
HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our company HQ is in Saarbrücken, Germany. Our servers run in Hetzner's Falkenstein datacenter.

Hetzner holds ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

We never sell your information to third parties.
We never train models on what you upload.
We never keep your work after you delete it.
We never share keys with any outside firm.
We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.

Arapski i hebrejski PII: Zapadni alati zakazuju

Jaz u uskladenosti za RTL skripte

Slucaj koristenja KYC

Hebrejski i dokumenti s mijesanim jezicima

Zahtjev za visejezicnom arhitekturom

Izvori

Povezani Članci

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Spremni za zaštitu vaših podataka?

Arapski i hebrejski PII: Zapadni alati zakazuju

Jaz u uskladenosti za RTL skripte

Slucaj koristenja KYC

Hebrejski i dokumenti s mijesanim jezicima

Zahtjev za visejezicnom arhitekturom

Izvori

Povezani Članci

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Spremni za zaštitu vaših podataka?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow