By · Last updated 2026-04-01

Tagasi BlogisseTehniline

Araabia ja heebrea isikuandmed: Lääne tööriistad ebaõnnestuvad

GDPR ei lõpe Bosporusel. Araabia ja heebrea isikuandmed ELi äritegevuses on süstemaatiliselt kaitsmata. XLM-RoBERTa mitmekeelne tuvastus ja.

April 1, 20268 min lugemist
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Paremalt vasakule kirjutamise vastavuslünk

GDPR ei lõpe Bosporusel. ELi ettevõtted, mis kasutavad ladina tähestiku tööriistu, on pimedas nurgas. See on reaalne ja suuresti ignoreeritud.

Probleem ei seisne ainult teksti suunas. Paremalt vasakule kirjutavad skriptid vajavad teistsugust tokeniseerimist. Nad vajavad teistsugust segmenteerimist. Üksuste piirid toimivad teisiti kui vasakult paremale tekstis. Inglise keelel treenitud NER-süsteemid rakendavad vasakult paremale reegleid. Need reeglid ei toimi paremalt vasakule tekstil. Nad annavad valed üksuste piirid.

Araabia morfoloogia muudab asja keerulisemaks. Keel kasutab juuri. Ühest juurest tuleneb kümneid sõnavorme. Nimi nagu Mohammed võib esineda kujul "Al-Mohammed", "bin Mohammed" või "Mohammed al-Rashid". Läänelike nimede jaoks loodud regex-mustrid jätavad need vormid kahe silma vahele. Ka inglise keelel treenitud mudelid jätavad need vahele.

GDPR ei käsitle keelt vastavuspiirина. ELi ettevõte, mis töötleb MENA klientide kirjavahetust, peab täitma samu reegleid nagu prantsuskeelse posti puhul. Puuduv isikuandmete tuvastus paremalt vasakule tekstis on õiguslik ebaõnnestumine GDPR artikli 32 alusel.

KYC kasutamise näide

Dubai fintech, mis töötleb ELi klientide KYC-dokumente, illustreerib seda selgelt.

Araabi klientide KYC-failid sisaldavad nimesid paremalt vasakule skriptis, UAE Emirate ID-sid ja paremalt vasakule aadresse. Need asuvad ingliskeelse äriteksiga kõrvuti.

Emirate ID formaat on 784-XXXX-XXXXXXX-X. Riigikood 784. Sünniaasta. Seitse numbrit. Kontrollnumber. Lääne isikuandmete tööriistad ilma UAE üksuste definitsioonideta ei suuda seda formaati leida. Nimeväljad läbivad ladina tähestiku NER-i. Segmenteerimine on vale. Isikuandmed muutuvad töövoos nähtamatuks.

Ettevõtetele, kellel on GDPR-kohustused nende andmete üle, tekitab lünk reaalse õigusliku riski. GDPR artikkel 32 nõuab asjakohaseid tehnilisi meetmeid. Tööriist, mis jätab tuvastamata identifikaatorid 22% maailma keeltes, ei ole asjakohane meede.

Heebrea ja segakeelsed dokumendid

Heebrea esitab sarnaseid probleeme. Kiri liigub paremalt vasakule. Iisraeli ID-numbrid kasutavad kontrollsummat - Luhn-sarnast testi üheksale numbrikohale.

Iisraeli juriidilised dokumendid segavad sageli ühes failis heebrea, araabia kirjas teksti ja inglise keelt. See on tavaline lepingutes, kus heebrea on põhikeel ja ingliskeelsed terminid on viiteliselt lisatud.

Segakirja failid vajavad enne NER-i skripti tuvastamist. Ilma selleta rakendab üks NER-läbijooks paremalt vasakule skriptidele ladina reegleid. Tulemus on vale.

Nature Scientific Reports'i (2025) uuring testis mitmekeelset NER-i paremalt vasakule isikuandmetel. Standardmudelid said F1-skoori 0,60-0,83. Paremalt vasakule NER-andmetel peenhäälestatud XLM-RoBERTa sai 0,88 ja kõrgemalt.

Mitmekeelse arhitektuuri nõue

Hea paremalt vasakule isikuandmete tuvastus vajab kolme asja, mida lääne esikohaga tööriistadel tavaliselt pole.

Paremalt vasakule teksti käsitlemine: Unicode kahesuunalise vastavuse toetus õige tekstivoo jaoks. Paremalt vasakule teadlik tokeniseerimine, mis leiab sõnapiirid paremalt vasakule tekstis.

Morfoloogiateadlik NER: Morfoloogiline analüsaator nagu Farasa araabia keele jaoks või transformermudel, mis on peenhäälestatud paremalt vasakule NER-andmetel. Mudel peab olema õppinud morfoloogilisi variatsioone.

Piirkonnaspetsiifilised üksuste tüübid: Emirate ID, Iisraeli ID, Saudi Araabia rahvuslik ID ja Egiptuse rahvuslik ID vajavad igaüks selgesõnalisi definitsioone formaadireeglitest. Üldistel lääne tööriistadel neid pole.

Vaata, kuidas meie mitmekeelne NER-pipeline käsitleb skripti tuvastamist 48 keeles. Kõikide MENA identifikaatoritüüpide täieliku loetelu leiad üksuste kataloogist. Meie GDPR-vastavuse juhend selgitab, kuidas tuvastamislüngad loovad artikli 32 kokkupuudet.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.