By · Last updated 2026-04-01

Til baka á BloggTæknilegt

Arabísk og hebresk persónugrein: Vestræn tæki bila

GDPR lýkur ekki við Bosporussund. Arabísk og hebresk persónugreinileg gögn í vinnuflæði evrópskra fyrirtækja eru kerfisbundið óvarin. XLM-RoBERTa krosslingvískar greiningar og.

April 1, 20268 mín lestur
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Samræmisgapið í hægri-til-vinstri texta

GDPR lýkur ekki við Bosporussund. Evrópsk fyrirtæki sem nota tæki byggð á latínuletri eiga blinda punkta. Þeir eru raunverulegir og að mestu leiti hunsaðir.

Vandinn snýr ekki eingöngu að textastefnu. Hægri-til-vinstri skriftir krefjast annarrar tákngreiningaraðferðar. Þær krefjast annarrar skiptingar. Einingamörk virka öðruvísi en í vinstri-til-hægri texta. NER-kerfi þjálfuð á ensku beita vinstri-til-hægri reglum. Þessar reglur bila á hægri-til-vinstri texta. Þær gefa rangar einingamörk.

Arabísk málfræði gerir hlutina erfiðari. Tungumálið notar rætur. Ein rót gefur tugi orðamynda. Nafn eins og Mohammed getur birst sem "Al-Mohammed", "bin Mohammed" eða "Mohammed al-Rashid". Regex-mynstur smíðuð fyrir vestræn nöfn sakna þessara mynda. Líkön þjálfuð á ensku sakna þeirra líka.

GDPR lítur ekki á tungumál sem samræmismörk. Evrópsk fyrirtæki sem vinna úr tölvupósti frá MENA-viðskiptavinum verða að uppfylla sömu reglur og fyrir frönsku tölvupóst. Það að missa persónugreinileg gögn í hægri-til-vinstri texta er lagaleg bilun samkvæmt GDPR 32. grein.

KYC-dæmið

Dubai-fjármálafyrirtæki sem vinnur úr KYC-skjölum fyrir evrópska viðskiptavini sýnir þetta skýrt.

KYC-skrár arabískra viðskiptavina innihalda nöfn í hægri-til-vinstri skrift, Emirate ID-númer frá Sameinuðu arabísku furstadæmunum og hægri-til-vinstri heimilisföng. Þetta liggur við hlið enskra viðskiptatexta.

Emirates ID-sniðið er 784-XXXX-XXXXXXX-X. Landsnúmer 784. Fæðingarár. Sjö stafir. Athugunarstaður. Vestræn PII-tæki án UAE-einingaskilgreininga geta ekki fundið þetta snið. Nafnareitirnir fara í gegnum latínuleturs-NER. Skiptingin er röng. Persónugreinileg gögn verða ósýnileg í vinnuflæðinu.

Fyrir fyrirtæki með GDPR-skyldur yfir þessum gögnum skapar bilið raunverulegar lagalegar áhættur. GDPR 32. grein krefst viðeigandi tæknilegra ráðstafana. Tæki sem saknir auðkenna í 22% tungumála heimsins uppfyllir ekki þessa kröfu.

Hebreska og skjöl á blönduðum tungumálum

Hebreska skapar svipaðar áskoranir. Skriftin rennur hægri-til-vinstri. Ísraelskir auðkenniskortar nota prófsamtölu -- Luhn-líka próf á níu tölustöfum.

Ísraelskir lagaskjalar blanda oft saman hebresku, arabísktum texta og ensku í einni skrá. Þetta er algengt í samningum þar sem hebreska er aðaltungumálið og enskir skilmálar eru bætt við með tilvísun.

Skjöl á blönduðum skriftum þurfa skriftargreiningu áður en NER er framkvæmt. Án þess beitir eitt NER-stig latínureglum á hægri-til-vinstri skriftir. Niðurstaðan er röng.

Rannsókn í Nature Scientific Reports (2025) prófaði krosslingvísar NER á hægri-til-vinstri persónugreinilegum gögnum. Staðlaðar líkön náðu F1 upp á 0.60-0.83. XLM-RoBERTa fínstillt á hægri-til-vinstri NER-gögnum náði 0.88 og hærra.

Kröfur um krosslingvísar uppbyggingu

Góð greining persónugreinilegs efnis í hægri-til-vinstri texta krefst þriggja hluta sem vestræn-fyrst tæki hafa venjulega ekki.

Meðhöndlun á hægri-til-vinstri texta: Unicode tvístefnu-samræmi fyrir rétta textaflæðingu. Hægri-til-vinstri meðvæt tákngreining sem finnur orðamörk í hægri-til-vinstri texta.

Málfræðimeðvæt NER: Málfræðigreining eins og Farasa fyrir arabísku, eða umbreytilíkan fínstillt á hægri-til-vinstri NER-gögnum. Líkanið verður að hafa lært málfræðilegar breytingar.

Svæðisbundnar einingategundir: Emirates ID, ísraelskur auðkenniskort, sádi-arabískt þjóðernisauðkenni og egypskt þjóðernisauðkenni þurfa hvert og eitt skýrar skilgreiningar með sniðsreglum. Almenn vestræn tæki hafa þetta ekki.

Sjáðu hvernig margtyngdar NER-leiðslur okkar sér um skriftargreiningu yfir 48 tungumál. Fyrir heildarlista yfir MENA-auðkennisgerðir sem við styðjum, heimsæktu einingaskrána. Leiðbeiningar okkar um GDPR-samræmi útskýrir hvernig greiningarbil skapar 32. greinar-útsetningu.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.