By · Last updated 2026-04-01

ブログに戻るテクニカル

中東のコンプライアンスギャップ:アラビア語とヘブライ語のPIIが西洋のプライバシーツールに見えない理由

GDPRはボスポラス海峡で終わりません。EUのビジネスワークフローにおけるアラビア語とヘブライ語のPIIは体系的に保護されていません。XLM-RoBERTaのクロスリンガル検出とRTLテキスト処理はMENA-EUの業務においてオプションではありません。

April 1, 20268 分で読めます
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

RTLコンプライアンスの盲点

GDPRはボスポラス海峡で終わらない。ラテン文字向けツールを使うEU企業には盲点がある。それは現実の問題であり、広く見過ごされている。

問題はテキストの方向だけではない。右から左に書く文字体系には、別のトークン化が必要だ。別のセグメント化も必要だ。エンティティの境界はLTRテキストとは異なる動作をする。英語で訓練されたNERシステムはLTRのルールを適用する。そのルールはRTLテキストでは機能しない。間違ったエンティティ境界を生成する。

アラビア語の形態論はさらに難しくする。この言語は語根を使う。一つの語根から何十もの語形が生まれる。モハメッドという名前は「Al-Mohammed」「bin Mohammed」「Mohammed al-Rashid」として現れることがある。西洋の名前向けに作られた正規表現パターンはこれらの形式を捉えられない。英語で訓練されたモデルも同様だ。

GDPRは言語をコンプライアンスの境界として扱わない。MENA地域のクライアントからの顧客書簡を処理するEU企業は、フランス語の書簡と同じルールを適用しなければならない。RTLテキストで個人情報を見逃すことは、GDPR第32条に基づく法的違反だ。

KYCのユースケース

EUクライアント向けのKYC書類を処理するドバイのフィンテック企業がこれをよく示している。

アラブ人クライアントのKYCファイルには、RTL文字での名前、UAEエミレーツID、RTL住所が含まれる。これらは英語のビジネス文書と混在している。

エミレーツIDのフォーマットは784-XXXX-XXXXXXX-Xだ。国コード784。生年。7桁の番号。チェックデジット。UAEエンティティ定義を持たないPII検出ツールはこのフォーマットを見つけられない。名前フィールドはラテン文字NERで処理される。セグメント化は間違っている。PIIはワークフロー内で不可視になる。

このデータに対するGDPR義務を持つ企業にとって、このギャップは現実の法的リスクを生む。GDPR第32条は適切な技術的措置を要求する。世界の言語の22%で識別子を見逃すツールは、適切な措置ではない。

ヘブライ語と多言語文書

ヘブライ語も同様の問題を提示する。文字は右から左に書かれる。イスラエルのID番号はチェックサムを使う——9桁のLuhn類似テストだ。

イスラエルの法的文書は、ヘブライ語、アラビア文字テキスト、英語を一つのファイルに混在させることが多い。ヘブライ語が主要言語であり、英語の条件が参照によって組み込まれる契約でよく見られる。

混在文字体系の文書は、NERの前にスクリプト検出が必要だ。それなしでは、単一のNERパスがRTLスクリプトにラテン語ルールを適用する。結果は間違っている。

Nature Scientific Reports(2025年)の研究はRTL個人情報のクロスリンガルNER性能をテストした。標準モデルはF1スコア0.60–0.83を達成した。RTL NERデータでファインチューニングされたXLM-RoBERTaは0.88以上を達成した。

必要なクロスリンガルアーキテクチャ

優れたRTL PII検出には、西洋中心のツールが通常持っていない3つの要素が必要だ。

RTLテキスト処理: 正しいテキストフローのためのUnicode双方向アルゴリズム準拠。右から左のテキストで単語境界を見つけるRTL対応トークン化。

形態論を考慮したNER: アラビア語向けFarasaのような形態素解析器、またはRTL NERデータでファインチューニングされたトランスフォーマーモデル。モデルは形態論的変異を学習している必要がある。

地域固有のエンティティタイプ: エミレーツID、イスラエルID、サウジ国民ID、エジプト国民IDはそれぞれフォーマットルールを持つ明示的な定義が必要だ。汎用的な西洋ツールはこれらを持っていない。

48言語にわたるスクリプト検出を処理する多言語NERパイプラインをご覧ください。サポートするMENA地域の識別子タイプの完全なリストは、エンティティカタログをご覧ください。GDPRコンプライアンスガイドでは、検出ギャップが第32条のリスクをどのように生むかを説明しています。

参考文献

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.