By · Last updated 2026-03-20

Kembali ke BlogGDPR & Pematuhan

Alat PII Bahasa Inggeris Sahaja: Jurang GDPR

Steuer-ID Jerman (11 digit dengan checksum) berbeza strukturnya daripada SSN Amerika. Nombor NIR Perancis mempunyai 15 digit. PESEL Poland dan Personnummer Sweden berbeza lagi. Alat PII bahasa Inggeris sahaja tidak dapat mengesannya.

March 20, 20268 min baca
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Alat PII Bahasa Inggeris Sahaja: Jurang GDPR

GDPR Tidak Mengutamakan Mana-Mana Bahasa

GDPR merangkumi data peribadi dalam mana-mana bahasa. Jerman, Perancis, Poland, Sweden — semua dilindungi sama rata. Steuer-ID yang terlepas menimbulkan risiko undang-undang yang sama seperti Nombor Keselamatan Sosial Amerika yang terlepas. Undang-undang tidak mengambil kira bahasa.

Kebanyakan alat pengesan PII mengambil kira bahasa.

Alat komersial dan sumber terbuka terkemuka dibina untuk teks bahasa Inggeris. Pengesan entiti mereka mencerminkan ini. Mereka meliputi Nombor Keselamatan Sosial Amerika, lesen memandu Amerika, dan format telefon NANP dengan baik. Pengesan untuk ID kebangsaan bukan bahasa Inggeris adalah kurang tepat. Ia kurang dipelihara. Ia lebih kerap terlepas pengecam sebenar.

Bagi firma merentasi negara anggota EU, ini menimbulkan jurang liputan. Alat itu melaporkan pengesanan selesai. Tetapi pengecam bukan bahasa Inggeris kekal dalam data. Ini selalunya merupakan pengecam dengan pendedahan GDPR terbesar di negara tertentu.

Pihak berkuasa data menyedari ini. Juruaudit mencarinya. Alat boleh berfungsi baik pada rekod bahasa Inggeris. Tetapi jika ia gagal pada rekod bahasa Jerman atau Perancis, ia tidak patuh. Laporan yang bersih tidak mengubah itu.

ID Kebangsaan Berbeza dalam Struktur

Jurang antara alat berpusatkan bahasa Inggeris dan alat berbilang bahasa bukan tentang menambah lebih banyak corak regex. Pengecam kebangsaan EU sangat berbeza antara satu sama lain. Mereka memerlukan logik khusus negara untuk dikesan dengan betul.

Steuer-Identifikationsnummer Jerman (Steuer-ID): 11 digit. Ia menggunakan checksum berdasarkan varian formula Luhn. Regex SSN generik tidak akan memadankannya. Regex untuk mana-mana nombor 11 digit menghasilkan terlalu banyak positif palsu dalam dokumen Jerman.

NIR Perancis (Numero d'inscription au repertoire): 15 digit. Format itu mengekod jantina, tahun lahir, bulan lahir, dan jabatan lahir. Ia juga termasuk susunan lahir dan kunci kawalan 2 digit. Kunci kawalan mesti disahkan untuk pengesanan yang betul.

Personnummer Sweden: 10 digit dengan digit semak Luhn. Orang yang lahir sebelum 1990 menggunakan pemisah + dan bukannya -. Itu mengubah format yang mesti dikesan.

PESEL Poland: 11 digit. Ia mengekod tarikh lahir, jantina, dan digit semak berdasarkan jumlah berwajaran. Pengesanan yang betul memerlukan padanan format dan pengesahan checksum.

Ini bukan varian corak biasa. Setiap satu mempunyai panjang yang berbeza. Setiap satu menggunakan kaedah semak yang berbeza. Setiap satu mengekod data dalam skim kedudukan yang berbeza. Model NER terlatih bahasa Inggeris yang melihat NIR Perancis tidak akan mengenalinya sebagai pengecam kebangsaan. Ia akan mengabaikannya atau mengklasifikasikannya dengan salah.

Risiko Pematuhan yang Praktikal

Bayangkan pegawai pematuhan di BPO Eropah. Mereka memproses data dari Jerman, Perancis, Poland, dan Belanda serentak. Alat mereka melaporkan penganoniman PII yang berjaya.

Tetapi hasilnya tidak lengkap. Steuer-ID dalam rekod Jerman kekal. Nombor NIR dalam rekod Perancis kekal. Nombor PESEL dalam rekod Poland kekal. Pengesan alat untuk format ini tidak ada atau terlalu tidak tepat.

Kemudian, dataset itu pergi ke analitik atau ke rakan penyelidikan. Data masih mengandungi pengecam kebangsaan yang boleh dikenal semula. Isu GDPR tidak muncul dalam log output alat. Ia muncul apabila permintaan akses subjek data tiba. Ia mungkin muncul semasa audit pihak berkuasa data. Ia mungkin muncul selepas kebocoran data.

Penyelidikan yang membandingkan pendekatan hibrid berbilang bahasa dengan alat berpusatkan bahasa Inggeris mendapati keputusan yang jelas. Kaedah hibrid mencapai skor F1 antara 0.60 hingga 0.83 merentasi lokasi Eropah. Alat bahasa Inggeris sahaja mendapat skor hampir sifar untuk format ID kebangsaan bukan bahasa Inggeris.

Lihat gambaran pematuhan GDPR kami untuk cara jurang ini dipetakan kepada kewajipan GDPR.

Apa yang Diperlukan untuk Liputan Penuh

Pengesanan PII berbilang bahasa yang benar untuk pematuhan GDPR EU memerlukan tiga lapisan.

Model spaCy asli bahasa menyediakan pemahaman semantik dalam bahasa teks. Model yang dilatih pada teks bahasa Jerman tahu bahawa "Muller" adalah nama keluarga Jerman yang biasa. Model wujud untuk 25 bahasa EU sumber tinggi.

Model NLP Stanza meluaskan liputan kepada bahasa yang tidak ada dalam spaCy. Ini menambah jangkauan untuk lebih banyak komuniti bahasa EU.

Model transformer merentas bahasa (XLM-RoBERTa) mengendalikan kes merentas bahasa. Nama dalam ayat Perancis dikenali sebagai nama orang. Ini berfungsi walaupun enjin tidak dilatih pada nama khusus itu.

Regex dengan pengesahan khusus negara merangkumi pengecam kebangsaan berstruktur. Steuer-ID, NIR, PESEL, dan Personnummer masing-masing memerlukan logik checksum mereka sendiri. Ini mengurangkan positif palsu. Urutan digit yang gagal peraturan pengesahan negara ditapis keluar.

Jurang ini adalah struktural. Menambah senarai kata atau lebih banyak corak regex hanya memberikan penambahbaikan kecil. Membina liputan pengecam EU dari awal adalah satu-satunya pendekatan yang boleh dipercayai.

Semak Alat Anda Sekarang

Tanya vendor anda untuk skor F1 pada rekod bahasa Jerman, Perancis, Poland, dan Belanda. "Menyokong pelbagai bahasa" selalunya bermakna alat menggunakan terjemahan dahulu. Itu bukan pengimbasan asli. Pematuhan GDPR memerlukan pengimbasan asli.

Uji dengan sampel ID kebangsaan sebenar. Bina set ujian pendek dengan 10 contoh setiap jenis ID dalam operasi anda. Steuer-ID, NIR, PESEL, Personnummer. Semak kadar pengesanan. Ini lebih pantas daripada ujian F1 penuh dan menunjukkan jurang dengan cepat.

Lihat halaman keselamatan dan pematuhan kami untuk cara anonym.legal menangani keperluan ini. Untuk definisi jenis entiti, lawati rujukan entiti.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.