By · Last updated 2026-03-20

Kembali ke BlogGDPR & Kepatuhan

Alat PII Hanya Bahasa Inggris: Celah GDPR

Steuer-ID Jerman (11 digit dengan checksum) secara struktural berbeda dari SSN AS. Nomor NIR Prancis memiliki 15 digit. PESEL Polandia dan Personnummer Swedia.

March 20, 20268 menit baca
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Alat PII Hanya Bahasa Inggris: Celah GDPR

GDPR Tidak Memiliki Preferensi Bahasa

GDPR mencakup data pribadi dalam bahasa apa pun. Jerman, Prancis, Polandia, Swedia — semuanya dicakup secara setara. Steuer-ID yang terlewat menciptakan risiko hukum yang sama dengan Social Security Number yang terlewat. Hukum tidak peduli tentang bahasa.

Sebagian besar alat deteksi PII peduli.

Alat komersial dan sumber terbuka terkemuka dibangun untuk teks bahasa Inggris. Detektor entitasnya mencerminkan hal ini. Mereka mencakup Social Security Number AS, SIM AS, dan format telepon NANP dengan baik. Detektor untuk ID nasional non-bahasa Inggris kurang akurat. Mereka kurang terpelihara dengan baik. Mereka lebih sering melewatkan pengenal nyata.

Bagi perusahaan di seluruh negara anggota EU, ini menciptakan kesenjangan cakupan. Alat tersebut mengatakan deteksi sudah lengkap. Namun pengenal non-bahasa Inggris tetap ada dalam data. Ini sering kali merupakan pengenal dengan eksposur GDPR terbesar di negara-negara tertentu.

Otoritas data melihat ini. Auditor mencarinya. Sebuah alat dapat bekerja dengan baik pada catatan bahasa Inggris. Namun jika gagal pada catatan Jerman atau Prancis, itu tidak patuh. Laporan bersih tidak mengubah hal itu.

ID Nasional Berbeda dalam Struktur

Kesenjangan antara alat yang berpusat pada bahasa Inggris dan alat multibahasa bukan tentang menambahkan lebih banyak pola regex. Pengenal nasional EU sangat berbeda satu sama lain. Mereka membutuhkan logika khusus negara untuk dideteksi dengan benar.

Steuer-Identifikationsnummer Jerman (Steuer-ID): 11 digit. Menggunakan checksum berdasarkan varian formula Luhn. Regex SSN generik tidak akan cocok dengannya. Regex untuk angka 11 digit apa pun menciptakan terlalu banyak positif palsu dalam dokumen Jerman.

NIR Prancis (Numéro d'inscription au répertoire): 15 digit. Formatnya mengkodekan jenis kelamin, tahun lahir, bulan lahir, dan departemen lahir. Ini juga mencakup urutan lahir dan kunci kontrol 2 digit. Kunci kontrol harus divalidasi untuk deteksi yang benar.

Personnummer Swedia: 10 digit dengan digit cek Luhn. Orang yang lahir sebelum 1990 menggunakan pemisah + alih-alih -. Itu mengubah format yang harus dideteksi.

PESEL Polandia: 11 digit. Mengkodekan tanggal lahir, jenis kelamin, dan digit cek berdasarkan jumlah berbobot. Deteksi yang benar membutuhkan pencocokan format dan validasi checksum.

Ini bukan varian dari pola umum. Masing-masing memiliki panjang yang berbeda. Masing-masing menggunakan metode cek yang berbeda. Masing-masing mengkodekan data dalam skema posisi yang berbeda. Model NER yang dilatih dalam bahasa Inggris yang melihat NIR Prancis tidak akan mengenalinya sebagai pengenal nasional. Itu akan mengabaikannya atau salah mengklasifikasikannya.

Risiko Kepatuhan Praktis

Bayangkan seorang petugas kepatuhan di BPO Eropa. Mereka memproses data dari Jerman, Prancis, Polandia, dan Belanda sekaligus. Alat mereka melaporkan anonimisasi PII yang berhasil.

Namun hasilnya tidak lengkap. Steuer-ID dalam catatan Jerman tetap ada. Nomor NIR dalam catatan Prancis tetap ada. Nomor PESEL dalam catatan Polandia tetap ada. Detektor alat untuk format ini tidak ada atau terlalu tidak akurat.

Kemudian, dataset tersebut dikirim ke analitik atau mitra penelitian. Data masih mengandung pengenal nasional yang dapat diidentifikasi ulang. Masalah GDPR tidak muncul dalam log output alat. Masalah ini muncul ketika permintaan akses subjek data tiba. Ini mungkin muncul selama audit otoritas data. Ini mungkin muncul setelah pelanggaran data.

Penelitian yang membandingkan pendekatan multibahasa hibrida dengan alat yang berpusat pada bahasa Inggris menemukan hasil yang jelas. Metode hibrida mencapai skor F1 0,60 hingga 0,83 di seluruh lokal Eropa. Alat hanya bahasa Inggris mendekati nol untuk format ID nasional non-bahasa Inggris.

Lihat gambaran umum kepatuhan GDPR kami untuk cara celah ini memetakan kewajiban GDPR.

Apa yang Dibutuhkan Cakupan Penuh

Deteksi PII multibahasa sejati untuk kepatuhan GDPR EU membutuhkan tiga lapisan.

Model spaCy asli bahasa memberikan pemahaman semantik dalam bahasa teks. Model yang dilatih pada teks Jerman tahu bahwa "Müller" adalah nama keluarga Jerman yang umum. Model ada untuk 25 bahasa EU dengan sumber daya tinggi.

Model NLP Stanza memperluas cakupan ke bahasa yang tidak ada dalam spaCy. Ini menambah jangkauan untuk lebih banyak komunitas bahasa EU.

Model transformer lintas bahasa (XLM-RoBERTa) menangani kasus lintas bahasa. Sebuah nama dalam kalimat Prancis dikenali sebagai nama orang. Ini bekerja bahkan jika mesin tidak dilatih pada nama spesifik tersebut.

Regex dengan validasi khusus negara mencakup pengenal nasional terstruktur. Steuer-ID, NIR, PESEL, dan Personnummer masing-masing membutuhkan logika checksum mereka sendiri. Ini mengurangi positif palsu. Urutan digit yang gagal aturan validasi negara disaring.

Kesenjangan ini bersifat struktural. Menambahkan daftar kata atau pola regex lainnya hanya memberikan peningkatan kecil. Membangun cakupan pengenal EU dari awal adalah satu-satunya pendekatan yang andal.

Periksa Alat Anda Saat Ini

Tanyakan kepada vendor Anda skor F1 pada catatan Jerman, Prancis, Polandia, dan Belanda. "Mendukung banyak bahasa" sering berarti alat menggunakan terjemahan terlebih dahulu. Itu bukan pemindaian asli. Kepatuhan GDPR memerlukan pemindaian asli.

Uji dengan sampel ID nasional nyata. Bangun set uji pendek dengan 10 contoh setiap jenis ID dalam operasi Anda. Steuer-ID, NIR, PESEL, Personnummer. Periksa tingkat deteksi. Ini lebih cepat dari uji F1 penuh dan menunjukkan kesenjangan dengan cepat.

Lihat halaman keamanan dan kepatuhan kami untuk cara anonym.legal menangani persyaratan ini. Untuk definisi jenis entitas, kunjungi referensi entitas.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.