By · Last updated 2026-03-03

Kembali ke BlogGDPR & Pematuhan

Pengesanan PII Pelbagai Bahasa untuk GDPR

Steuer-ID Jerman, NIR Perancis, dan Personnummer Sweden semuanya memerlukan logik pengesanan yang berbeza. Ketahui cara jurang bahasa mewujudkan risiko GDPR sebenar dan cara membina liputan yang betul.

March 3, 202610 min baca
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Pengesanan PII Pelbagai Bahasa untuk GDPR

Dikemas kini untuk 2026

Jurang GDPR yang Tersembunyi

GDPR tidak mempunyai keutamaan bahasa. Artikel 4(1) mentakrifkan "data peribadi" tanpa menyebut bahasa yang muncul di dalamnya. Steuer-ID Jerman dilindungi sama seperti Nombor Jaminan Sosial AS. NIR Perancis dikawal sama seperti nombor Insurans Nasional UK.

Kebanyakan alat pengesanan PII dibina hanya untuk bahasa Inggeris.

Penyelidikan dari ACL 2024 mendapati bahawa alat NLP hibrid mencapai skor F1 0.60–0.83 untuk lokasi Eropah. Alat hanya bahasa Inggeris mendapat skor hampir sifar untuk format ID nasional bukan Inggeris. Jurang itu ketara. Alat mungkin menangkap 95% PII bahasa Inggeris. Namun ia terlepas 40–60% PII Jerman, Perancis, Poland, atau Belanda dalam fail yang sama. Itu adalah masalah serius. Ia mendedahkan syarikat.

Ini adalah jurang GDPR sebenar. Ia mempengaruhi hampir setiap firma global yang menggunakan alat penyuntingan berpusat pada bahasa Inggeris. Lihat panduan GDPR kami untuk lebih lanjut.

Mengapa PII Adalah Khusus Lokasi

Pengesanan PII mempunyai dua bahagian.

Yang pertama adalah pengimbasan berasaskan corak. Ini meliputi ID berstruktur seperti nombor cukai dan format telefon.

Yang kedua adalah pengimbasan berasaskan NER. Ini meliputi entiti kontekstual seperti nama dan alamat.

Kedua-dua bahagian bergantung pada lokasi.

ID Berstruktur Berbeza Mengikut Negara

NegaraID CukaiFormatPengesahan
JermanSteuer-ID11 digitModulo-11
PerancisNIR15 digit + kunci 2 digitINSEE
SwedenPersonnummer10 digitLuhn
PolandPESEL11 digitModulo-10
BelandaBSN9 digitElfproef
SepanyolDNI/NIE8 digit + hurufModulo-23
ItaliCodice Fiscale16 aksaraChecksum tersuai

Regex hanya bahasa Inggeris untuk SSN (NNN-NN-NNNN) tidak akan sepadan dengan mana-mana format ini. Setiap satu memerlukan regex sendiri. Setiap satu juga memerlukan logik checksum sendiri.

NER Memerlukan Model Natif

Nama Jerman berbeza daripada nama Inggeris. "Hans-Dieter Muller" jelas bagi model natif Jerman. Model yang dilatih dalam bahasa Inggeris sering terlepas nama sedemikian.

Positif palsu juga merupakan masalah. Penjejak isu Microsoft Presidio menunjukkan kata-kata Jerman yang salah diklasifikasikan sebagai PII bahasa Inggeris. Perkataan "Null" (bahasa Jerman untuk "sifar") adalah satu contoh. Ia mencetuskan tembakan nama palsu dalam model yang dilatih dalam bahasa Inggeris. Dalam penggunaan pengeluaran, kadar ralat melambung kepada 3 positif palsu setiap entiti sebenar (Alvaro et al., 2024).

Risiko Peraturan

Badan data EU sedar tentang masalah ini. Beberapa DPA nasional telah mengeluarkan panduan.

BfDI Jerman: GDPR Artikel 5(1)(f) terpakai untuk semua rekod. Ia meliputi data bukan Inggeris yang diproses oleh alat pihak ketiga.

CNIL Perancis: Laporan Tahunan CNIL 2024 menimbulkan kebimbangan. Ia menandakan alat AI yang mengendalikan rekod Perancis tanpa pengimbasan PII lokasi Perancis.

DPA EU secara umum: GDPR Artikel 25 (Privasi mengikut Reka Bentuk) memerlukan perlindungan yang sesuai dengan rekod sebenar yang diproses. Ini termasuk PII bukan Inggeris dalam penggunaan global.

Risikonya adalah jelas. Firma mungkin menunjukkan pengesanan PII 95% pada kandungan bahasa Inggeris dalam audit GDPR. Tetapi jika ia juga mengendalikan rekod Jerman, Perancis, dan Poland dengan alat yang sama, jurang akan muncul. Pemeriksa audit menyedari. Denda boleh menyusul. Lihat halaman perlindungan kami untuk cara kami menangani perkara ini.

Reka Bentuk Tiga Tahap

Penyelidikan dan penggunaan pengeluaran bersetuju dengan reka bentuk hibrid tiga tahap sebagai pendekatan terbaik.

Tahap 1: Model spaCy Natif

spaCy menyediakan model terlatih untuk 25 lokasi. Ini termasuk Jerman, Perancis, Sepanyol, Portugis, Itali, Belanda, Rusia, Cina, Jepun, Korea, dan Poland. Setiap model dilatih pada teks natif. Mereka mempelajari sintaks dan corak entiti setiap lokasi. Ini penting. Latihan natif bermakna panggilan balik yang lebih baik dan lebih sedikit positif palsu.

Untuk Jerman: de_core_news_lg mengendalikan kata nama majmuk dan corak nama Jerman. Untuk Perancis: fr_core_news_lg mengendalikan entiti Perancis, gelaran, nama tempat, dan organisasi.

Model natif mengatasi model rentas bahasa untuk pengimbasan nama pada lokasi sumber tinggi.

Tahap 2: Stanza untuk Lebih Banyak Lokasi

Perpustakaan Stanza Stanford meliputi lokasi yang tidak ada dalam spaCy. Ini termasuk Croatia, Slovenia, dan Ukraine. Ini menambah jangkauan untuk kumpulan penutur EU yang tidak dilayani spaCy. Stanza adalah percuma dan sumber terbuka. Ia berintegrasi dengan baik dengan selebihnya tindanan.

Tahap 3: XLM-RoBERTa untuk Jangkauan Luas

Untuk lokasi di mana spaCy dan Stanza kekurangan model NER, XLM-RoBERTa mengisi jurang tersebut. Ia dilatih pada teks Common Crawl merentasi 100 lokasi. Ia mencapai F1 rentas bahasa 91.4% untuk pengesanan PII (HuggingFace 2024). Ia mengendalikan pertukaran kod dengan baik. Itu adalah ciri utama. Ia penting apabila satu dokumen mengandungi teks dalam beberapa lokasi sekaligus.

Lawati dokumen sistem token kami untuk melihat cara panggilan API berskala dengan volum pelbagai bahasa.

Jenis Entiti Khusus Lokasi

Model sahaja tidak mencukupi. Penjajaran GDPR juga memerlukan skop jenis entiti untuk ID khusus negara.

ID Nasional EU mengikut negara:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Format telefon: Setiap negara EU mempunyai struktur awalan yang unik. +49, +33, dan +48 masing-masing memerlukan logik pengesahan sendiri.

Format alamat: Kod pos berbeza-beza. PLZ Jerman menggunakan 5 digit. Kod Perancis menggunakan 5 digit (julat 01–99). Poskod UK adalah alfanumerik. Kod Sepanyol menggunakan 5 digit (01000–52999).

Kes Dunia Sebenar: Farmaseutikal Swiss

Sebuah firma Swiss memproses kontrak pekerjaan. Setiap kontrak mencampurkan teks Jerman, Perancis, dan Inggeris. Switzerland mempunyai empat bahasa rasmi. Alat mereka ditetapkan untuk bahasa Jerman sahaja. Ia terlepas semua PII bahagian Perancis.

Kontrak untuk pekerja yang berpangkalan di Geneva termasuk nombor AVS Perancis (13 digit), IBAN bank Swiss, dan nama dalam format Perancis. Alat hanya bahasa Jerman terlepas nama format Perancis. Ia gagal menemui nombor AVS format Perancis. Ia hanya sebahagiannya mengesan IBAN.

Pendekatan tiga tahap memproses keseluruhan dokumen. Ia mengesan lokasi setiap segmen teks. Ia menerapkan model NER yang betul untuk setiap bahagian. Ia mengesahkan setiap ID nasional dengan logik negara yang betul.

Dokumen Pelbagai Lokasi Bercampur

Kes paling sukar adalah pencampuran lokasi intra-dokumen. Contoh:

  • Kontrak bahasa Inggeris firma Jerman dengan rekod pekerja Jerman (nama, ID cukai)
  • Borang persetujuan GDPR Perancis dengan petikan privasi bahasa Inggeris
  • Sembang di mana ejen membalas dalam bahasa Inggeris dan pelanggan menulis dalam bahasa Arab

XLM-RoBERTa mengendalikan ini secara natif. Ia tidak memerlukan penanda lokasi eksplisit. Ia memproses teks pelbagai lokasi tanpa segmentasi awal. Ini menjimatkan masa. Ia juga mengelakkan ralat daripada pemisahan yang salah.

Untuk penggunaan pengeluaran, menggabungkan pengesanan lokasi automatik (di peringkat ayat) dengan inferens XLM-RoBERTa memberikan pengendalian teguh dokumen pelbagai lokasi.

Langkah-Langkah Praktikal

Audit jangkauan alat anda. Tanya vendor penyuntingan anda untuk skor F1 bagi lokasi tertentu anda. "Menyokong 20 bahasa" sering bermakna alat menghalakan teks melalui terjemahan mesin dahulu. Itu bukan pengimbasan natif.

Petakan rekod anda kepada lokasi. Buat inventori rekod yang merangkumi pengedaran lokasi. Firma global dengan 70% Inggeris, 20% Jerman, dan 10% Perancis menghadapi risiko yang berbeza. Satu dengan 95% Inggeris berada dalam kedudukan berbeza.

Uji dengan sampel ID nasional. Bina set ujian dengan 10 contoh ID nasional dalam operasi anda — Steuer-ID, NIR, PESEL, BSN, dan lain-lain. Sahkan kadar pengesanan. Ini lebih cepat daripada ujian F1 penuh.

Semak semula DPIA anda. Semak sama ada skop lokasi disertakan. DPIA yang tidak lengkap yang mengandaikan rekod hanya bahasa Inggeris mungkin perlu dikemas kini. Bertindak sekarang. Jangan tunggu audit untuk menemui jurang itu.

Untuk definisi jenis entiti penuh, lihat rujukan entiti dan FAQ. Untuk pelan dan kadar panggilan API, lawati harga.


Enjin pengesanan PII anonym.legal menggunakan pendekatan pelbagai bahasa tiga tahap. Ia meliputi 25 lokasi sumber tinggi melalui model spaCy natif. Stanza menambah jangkauan lokasi tambahan. Transformer rentas bahasa XLM-RoBERTa memperluaskan skop kepada 48 lokasi. Jenis entiti khusus negara untuk semua negara anggota EU disertakan.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.