By · Last updated 2026-04-01

Kembali ke BlogTeknis

PII Arab & Ibrani: Alat Barat Gagal Mendeteksinya

GDPR tidak berhenti di Bosphorus. PII dalam bahasa Arab dan Ibrani di alur kerja bisnis EU secara sistematis tidak terlindungi. Deteksi lintas bahasa XLM-RoBERTa dan.

April 1, 20268 menit baca
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Kesenjangan Kepatuhan RTL

GDPR tidak berhenti di Bosphorus. Perusahaan-perusahaan EU yang menggunakan alat berbasis skrip Latin memiliki titik buta. Masalah ini nyata dan sebagian besar diabaikan.

Problematika ini bukan sekadar soal arah teks. Skrip yang ditulis dari kanan ke kiri (RTL) membutuhkan tokenisasi yang berbeda dan segmentasi yang berbeda pula. Batas entitas bekerja secara berbeda dibandingkan teks dari kiri ke kanan (LTR). Sistem NER yang dilatih menggunakan bahasa Inggris menerapkan aturan LTR. Aturan tersebut gagal pada teks RTL dan menghasilkan batas entitas yang salah.

Morfologi bahasa Arab mempersulit situasi ini. Bahasa Arab berbasis akar kata, di mana satu akar menghasilkan puluhan bentuk kata. Nama seperti Mohammed dapat muncul sebagai "Al-Mohammed," "bin Mohammed," atau "Mohammed al-Rashid." Pola regex yang dibangun untuk nama Barat melewatkan variasi ini. Model yang dilatih menggunakan bahasa Inggris pun mengalami hal yang sama.

GDPR tidak memperlakukan bahasa sebagai batas kepatuhan. Perusahaan EU yang memproses surat dari klien MENA harus memenuhi aturan yang sama seperti untuk surat berbahasa Prancis. Melewatkan PII dalam teks RTL adalah kegagalan hukum berdasarkan Pasal 32 GDPR.

Kasus Penggunaan KYC

Sebuah fintech Dubai yang memproses dokumen KYC untuk klien EU menggambarkan hal ini dengan jelas.

Berkas KYC untuk klien Arab memuat nama dalam skrip RTL, Emirates ID UEA, dan alamat RTL. Semuanya berdampingan dengan teks bisnis berbahasa Inggris.

Format Emirates ID adalah 784-XXXX-XXXXXXX-X: kode negara 784, tahun lahir, tujuh digit, dan digit cek. Alat PII Barat yang tidak memiliki definisi entitas UEA tidak dapat menemukan format ini. Kolom nama diproses oleh NER berbasis skrip Latin dengan segmentasi yang salah. Hasilnya: PII menjadi tidak terlihat dalam alur kerja.

Bagi perusahaan yang memiliki kewajiban GDPR atas data ini, kesenjangan tersebut menciptakan risiko hukum yang nyata. Pasal 32 GDPR mensyaratkan langkah-langkah teknis yang memadai. Alat yang melewatkan pengenal dalam 22% bahasa di dunia bukanlah langkah yang memadai.

Bahasa Ibrani dan Dokumen Multibahasa

Bahasa Ibrani menghadirkan masalah serupa. Skripnya berjalan dari kanan ke kiri. Nomor ID Israel menggunakan checksum — uji mirip Luhn pada sembilan digit.

Dokumen hukum Israel sering memadukan teks Ibrani, Arab, dan Inggris dalam satu berkas. Hal ini umum dalam kontrak di mana Ibrani adalah bahasa utama dan istilah Inggris ditambahkan sebagai referensi.

Berkas dengan skrip campuran membutuhkan deteksi skrip sebelum tahap NER. Tanpa itu, satu kali NER akan menerapkan aturan Latin pada skrip RTL dan menghasilkan output yang salah.

Penelitian dalam Nature Scientific Reports (2025) menguji NER lintas bahasa pada PII RTL. Model standar mencapai skor F1 antara 0,60–0,83. XLM-RoBERTa yang di-fine-tune pada data NER RTL mencapai 0,88 ke atas.

Persyaratan Arsitektur Lintas Bahasa

Deteksi PII RTL yang andal membutuhkan tiga hal yang biasanya tidak dimiliki oleh alat berbasis Barat.

Penanganan teks RTL: kepatuhan bidireksi Unicode untuk alur teks yang benar, serta tokenisasi RTL-aware yang menemukan batas kata dalam teks dari kanan ke kiri.

NER yang memahami morfologi: penganalisis morfologi seperti Farasa untuk bahasa Arab, atau model transformer yang di-fine-tune pada data NER RTL yang telah mempelajari variasi morfologi.

Tipe entitas spesifik wilayah: Emirates ID, ID Israel, Saudi National ID, dan Egyptian National ID masing-masing membutuhkan definisi eksplisit dengan aturan format. Alat Barat generik tidak memiliki ini.

Lihat bagaimana pipeline NER multibahasa kami menangani deteksi skrip dalam 48 bahasa. Untuk daftar lengkap tipe pengenal MENA yang kami dukung, kunjungi katalog entitas. Panduan kepatuhan GDPR kami menjelaskan bagaimana kesenjangan deteksi menciptakan eksposur berdasarkan Pasal 32.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.