Dikemas kini untuk 2026

GDPR tidak mempunyai keutamaan bahasa. Artikel 4(1) mentakrifkan "data peribadi" tanpa menyebut bahasa yang muncul di dalamnya. Steuer-ID Jerman dilindungi sama seperti Nombor Jaminan Sosial AS. NIR Perancis dikawal sama seperti nombor Insurans Nasional UK.

Kebanyakan alat pengesanan PII dibina hanya untuk bahasa Inggeris.

Penyelidikan dari ACL 2024 mendapati bahawa alat NLP hibrid mencapai skor F1 0.60–0.83 untuk lokasi Eropah. Alat hanya bahasa Inggeris mendapat skor hampir sifar untuk format ID nasional bukan Inggeris. Jurang itu ketara. Alat mungkin menangkap 95% PII bahasa Inggeris. Namun ia terlepas 40–60% PII Jerman, Perancis, Poland, atau Belanda dalam fail yang sama. Itu adalah masalah serius. Ia mendedahkan syarikat.

Ini adalah jurang GDPR sebenar. Ia mempengaruhi hampir setiap firma global yang menggunakan alat penyuntingan berpusat pada bahasa Inggeris. Lihat panduan GDPR kami untuk lebih lanjut.

Mengapa PII Adalah Khusus Lokasi

Pengesanan PII mempunyai dua bahagian.

Yang pertama adalah pengimbasan berasaskan corak. Ini meliputi ID berstruktur seperti nombor cukai dan format telefon.

Yang kedua adalah pengimbasan berasaskan NER. Ini meliputi entiti kontekstual seperti nama dan alamat.

Kedua-dua bahagian bergantung pada lokasi.

ID Berstruktur Berbeza Mengikut Negara

Negara	ID Cukai	Format	Pengesahan
Jerman	Steuer-ID	11 digit	Modulo-11
Perancis	NIR	15 digit + kunci 2 digit	INSEE
Sweden	Personnummer	10 digit	Luhn
Poland	PESEL	11 digit	Modulo-10
Belanda	BSN	9 digit	Elfproef
Sepanyol	DNI/NIE	8 digit + huruf	Modulo-23
Itali	Codice Fiscale	16 aksara	Checksum tersuai

Regex hanya bahasa Inggeris untuk SSN (NNN-NN-NNNN) tidak akan sepadan dengan mana-mana format ini. Setiap satu memerlukan regex sendiri. Setiap satu juga memerlukan logik checksum sendiri.

NER Memerlukan Model Natif

Nama Jerman berbeza daripada nama Inggeris. "Hans-Dieter Muller" jelas bagi model natif Jerman. Model yang dilatih dalam bahasa Inggeris sering terlepas nama sedemikian.

Positif palsu juga merupakan masalah. Penjejak isu Microsoft Presidio menunjukkan kata-kata Jerman yang salah diklasifikasikan sebagai PII bahasa Inggeris. Perkataan "Null" (bahasa Jerman untuk "sifar") adalah satu contoh. Ia mencetuskan tembakan nama palsu dalam model yang dilatih dalam bahasa Inggeris. Dalam penggunaan pengeluaran, kadar ralat melambung kepada 3 positif palsu setiap entiti sebenar (Alvaro et al., 2024).

Risiko Peraturan

Badan data EU sedar tentang masalah ini. Beberapa DPA nasional telah mengeluarkan panduan.

BfDI Jerman: GDPR Artikel 5(1)(f) terpakai untuk semua rekod. Ia meliputi data bukan Inggeris yang diproses oleh alat pihak ketiga.

CNIL Perancis: Laporan Tahunan CNIL 2024 menimbulkan kebimbangan. Ia menandakan alat AI yang mengendalikan rekod Perancis tanpa pengimbasan PII lokasi Perancis.

DPA EU secara umum: GDPR Artikel 25 (Privasi mengikut Reka Bentuk) memerlukan perlindungan yang sesuai dengan rekod sebenar yang diproses. Ini termasuk PII bukan Inggeris dalam penggunaan global.

Risikonya adalah jelas. Firma mungkin menunjukkan pengesanan PII 95% pada kandungan bahasa Inggeris dalam audit GDPR. Tetapi jika ia juga mengendalikan rekod Jerman, Perancis, dan Poland dengan alat yang sama, jurang akan muncul. Pemeriksa audit menyedari. Denda boleh menyusul. Lihat halaman perlindungan kami untuk cara kami menangani perkara ini.

Reka Bentuk Tiga Tahap

Penyelidikan dan penggunaan pengeluaran bersetuju dengan reka bentuk hibrid tiga tahap sebagai pendekatan terbaik.

Tahap 1: Model spaCy Natif

spaCy menyediakan model terlatih untuk 25 lokasi. Ini termasuk Jerman, Perancis, Sepanyol, Portugis, Itali, Belanda, Rusia, Cina, Jepun, Korea, dan Poland. Setiap model dilatih pada teks natif. Mereka mempelajari sintaks dan corak entiti setiap lokasi. Ini penting. Latihan natif bermakna panggilan balik yang lebih baik dan lebih sedikit positif palsu.

Untuk Jerman: de_core_news_lg mengendalikan kata nama majmuk dan corak nama Jerman. Untuk Perancis: fr_core_news_lg mengendalikan entiti Perancis, gelaran, nama tempat, dan organisasi.

Model natif mengatasi model rentas bahasa untuk pengimbasan nama pada lokasi sumber tinggi.

Tahap 2: Stanza untuk Lebih Banyak Lokasi

Perpustakaan Stanza Stanford meliputi lokasi yang tidak ada dalam spaCy. Ini termasuk Croatia, Slovenia, dan Ukraine. Ini menambah jangkauan untuk kumpulan penutur EU yang tidak dilayani spaCy. Stanza adalah percuma dan sumber terbuka. Ia berintegrasi dengan baik dengan selebihnya tindanan.

Tahap 3: XLM-RoBERTa untuk Jangkauan Luas

Untuk lokasi di mana spaCy dan Stanza kekurangan model NER, XLM-RoBERTa mengisi jurang tersebut. Ia dilatih pada teks Common Crawl merentasi 100 lokasi. Ia mencapai F1 rentas bahasa 91.4% untuk pengesanan PII (HuggingFace 2024). Ia mengendalikan pertukaran kod dengan baik. Itu adalah ciri utama. Ia penting apabila satu dokumen mengandungi teks dalam beberapa lokasi sekaligus.

Lawati dokumen sistem token kami untuk melihat cara panggilan API berskala dengan volum pelbagai bahasa.

Jenis Entiti Khusus Lokasi

Model sahaja tidak mencukupi. Penjajaran GDPR juga memerlukan skop jenis entiti untuk ID khusus negara.

ID Nasional EU mengikut negara:

DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
FR: NIR, SIREN, SIRET
PL: PESEL, NIP, REGON
NL: BSN
SE: Personnummer, Samordningsnummer
ES: DNI, NIE, NIF, CIF
IT: Codice Fiscale, Partita IVA

Format telefon: Setiap negara EU mempunyai struktur awalan yang unik. +49, +33, dan +48 masing-masing memerlukan logik pengesahan sendiri.

Format alamat: Kod pos berbeza-beza. PLZ Jerman menggunakan 5 digit. Kod Perancis menggunakan 5 digit (julat 01–99). Poskod UK adalah alfanumerik. Kod Sepanyol menggunakan 5 digit (01000–52999).

Kes Dunia Sebenar: Farmaseutikal Swiss

Sebuah firma Swiss memproses kontrak pekerjaan. Setiap kontrak mencampurkan teks Jerman, Perancis, dan Inggeris. Switzerland mempunyai empat bahasa rasmi. Alat mereka ditetapkan untuk bahasa Jerman sahaja. Ia terlepas semua PII bahagian Perancis.

Kontrak untuk pekerja yang berpangkalan di Geneva termasuk nombor AVS Perancis (13 digit), IBAN bank Swiss, dan nama dalam format Perancis. Alat hanya bahasa Jerman terlepas nama format Perancis. Ia gagal menemui nombor AVS format Perancis. Ia hanya sebahagiannya mengesan IBAN.

Pendekatan tiga tahap memproses keseluruhan dokumen. Ia mengesan lokasi setiap segmen teks. Ia menerapkan model NER yang betul untuk setiap bahagian. Ia mengesahkan setiap ID nasional dengan logik negara yang betul.

Dokumen Pelbagai Lokasi Bercampur

Kes paling sukar adalah pencampuran lokasi intra-dokumen. Contoh:

Kontrak bahasa Inggeris firma Jerman dengan rekod pekerja Jerman (nama, ID cukai)
Borang persetujuan GDPR Perancis dengan petikan privasi bahasa Inggeris
Sembang di mana ejen membalas dalam bahasa Inggeris dan pelanggan menulis dalam bahasa Arab

XLM-RoBERTa mengendalikan ini secara natif. Ia tidak memerlukan penanda lokasi eksplisit. Ia memproses teks pelbagai lokasi tanpa segmentasi awal. Ini menjimatkan masa. Ia juga mengelakkan ralat daripada pemisahan yang salah.

Untuk penggunaan pengeluaran, menggabungkan pengesanan lokasi automatik (di peringkat ayat) dengan inferens XLM-RoBERTa memberikan pengendalian teguh dokumen pelbagai lokasi.

Langkah-Langkah Praktikal

Audit jangkauan alat anda. Tanya vendor penyuntingan anda untuk skor F1 bagi lokasi tertentu anda. "Menyokong 20 bahasa" sering bermakna alat menghalakan teks melalui terjemahan mesin dahulu. Itu bukan pengimbasan natif.

Petakan rekod anda kepada lokasi. Buat inventori rekod yang merangkumi pengedaran lokasi. Firma global dengan 70% Inggeris, 20% Jerman, dan 10% Perancis menghadapi risiko yang berbeza. Satu dengan 95% Inggeris berada dalam kedudukan berbeza.

Uji dengan sampel ID nasional. Bina set ujian dengan 10 contoh ID nasional dalam operasi anda — Steuer-ID, NIR, PESEL, BSN, dan lain-lain. Sahkan kadar pengesanan. Ini lebih cepat daripada ujian F1 penuh.

Semak semula DPIA anda. Semak sama ada skop lokasi disertakan. DPIA yang tidak lengkap yang mengandaikan rekod hanya bahasa Inggeris mungkin perlu dikemas kini. Bertindak sekarang. Jangan tunggu audit untuk menemui jurang itu.

Untuk definisi jenis entiti penuh, lihat rujukan entiti dan FAQ. Untuk pelan dan kadar panggilan API, lawati harga.

Enjin pengesanan PII anonym.legal menggunakan pendekatan pelbagai bahasa tiga tahap. Ia meliputi 25 lokasi sumber tinggi melalui model spaCy natif. Stanza menambah jangkauan lokasi tambahan. Transformer rentas bahasa XLM-RoBERTa memperluaskan skop kepada 48 lokasi. Jenis entiti khusus negara untuk semua negara anggota EU disertakan.

Sumber

Artikel Berkaitan

GDPR & Pematuhan

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

Pengesanan PII Pelbagai Bahasa untuk GDPR