Pengesanan PII Pelbagai Bahasa untuk GDPR
Dikemas kini untuk 2026
Jurang GDPR yang Tersembunyi
GDPR tidak mempunyai keutamaan bahasa. Artikel 4(1) mentakrifkan "data peribadi" tanpa menyebut bahasa yang muncul di dalamnya. Steuer-ID Jerman dilindungi sama seperti Nombor Jaminan Sosial AS. NIR Perancis dikawal sama seperti nombor Insurans Nasional UK.
Kebanyakan alat pengesanan PII dibina hanya untuk bahasa Inggeris.
Penyelidikan dari ACL 2024 mendapati bahawa alat NLP hibrid mencapai skor F1 0.60–0.83 untuk lokasi Eropah. Alat hanya bahasa Inggeris mendapat skor hampir sifar untuk format ID nasional bukan Inggeris. Jurang itu ketara. Alat mungkin menangkap 95% PII bahasa Inggeris. Namun ia terlepas 40–60% PII Jerman, Perancis, Poland, atau Belanda dalam fail yang sama. Itu adalah masalah serius. Ia mendedahkan syarikat.
Ini adalah jurang GDPR sebenar. Ia mempengaruhi hampir setiap firma global yang menggunakan alat penyuntingan berpusat pada bahasa Inggeris. Lihat panduan GDPR kami untuk lebih lanjut.
Mengapa PII Adalah Khusus Lokasi
Pengesanan PII mempunyai dua bahagian.
Yang pertama adalah pengimbasan berasaskan corak. Ini meliputi ID berstruktur seperti nombor cukai dan format telefon.
Yang kedua adalah pengimbasan berasaskan NER. Ini meliputi entiti kontekstual seperti nama dan alamat.
Kedua-dua bahagian bergantung pada lokasi.
ID Berstruktur Berbeza Mengikut Negara
| Negara | ID Cukai | Format | Pengesahan |
|---|---|---|---|
| Jerman | Steuer-ID | 11 digit | Modulo-11 |
| Perancis | NIR | 15 digit + kunci 2 digit | INSEE |
| Sweden | Personnummer | 10 digit | Luhn |
| Poland | PESEL | 11 digit | Modulo-10 |
| Belanda | BSN | 9 digit | Elfproef |
| Sepanyol | DNI/NIE | 8 digit + huruf | Modulo-23 |
| Itali | Codice Fiscale | 16 aksara | Checksum tersuai |
Regex hanya bahasa Inggeris untuk SSN (NNN-NN-NNNN) tidak akan sepadan dengan mana-mana format ini. Setiap satu memerlukan regex sendiri. Setiap satu juga memerlukan logik checksum sendiri.
NER Memerlukan Model Natif
Nama Jerman berbeza daripada nama Inggeris. "Hans-Dieter Muller" jelas bagi model natif Jerman. Model yang dilatih dalam bahasa Inggeris sering terlepas nama sedemikian.
Positif palsu juga merupakan masalah. Penjejak isu Microsoft Presidio menunjukkan kata-kata Jerman yang salah diklasifikasikan sebagai PII bahasa Inggeris. Perkataan "Null" (bahasa Jerman untuk "sifar") adalah satu contoh. Ia mencetuskan tembakan nama palsu dalam model yang dilatih dalam bahasa Inggeris. Dalam penggunaan pengeluaran, kadar ralat melambung kepada 3 positif palsu setiap entiti sebenar (Alvaro et al., 2024).
Risiko Peraturan
Badan data EU sedar tentang masalah ini. Beberapa DPA nasional telah mengeluarkan panduan.
BfDI Jerman: GDPR Artikel 5(1)(f) terpakai untuk semua rekod. Ia meliputi data bukan Inggeris yang diproses oleh alat pihak ketiga.
CNIL Perancis: Laporan Tahunan CNIL 2024 menimbulkan kebimbangan. Ia menandakan alat AI yang mengendalikan rekod Perancis tanpa pengimbasan PII lokasi Perancis.
DPA EU secara umum: GDPR Artikel 25 (Privasi mengikut Reka Bentuk) memerlukan perlindungan yang sesuai dengan rekod sebenar yang diproses. Ini termasuk PII bukan Inggeris dalam penggunaan global.
Risikonya adalah jelas. Firma mungkin menunjukkan pengesanan PII 95% pada kandungan bahasa Inggeris dalam audit GDPR. Tetapi jika ia juga mengendalikan rekod Jerman, Perancis, dan Poland dengan alat yang sama, jurang akan muncul. Pemeriksa audit menyedari. Denda boleh menyusul. Lihat halaman perlindungan kami untuk cara kami menangani perkara ini.
Reka Bentuk Tiga Tahap
Penyelidikan dan penggunaan pengeluaran bersetuju dengan reka bentuk hibrid tiga tahap sebagai pendekatan terbaik.
Tahap 1: Model spaCy Natif
spaCy menyediakan model terlatih untuk 25 lokasi. Ini termasuk Jerman, Perancis, Sepanyol, Portugis, Itali, Belanda, Rusia, Cina, Jepun, Korea, dan Poland. Setiap model dilatih pada teks natif. Mereka mempelajari sintaks dan corak entiti setiap lokasi. Ini penting. Latihan natif bermakna panggilan balik yang lebih baik dan lebih sedikit positif palsu.
Untuk Jerman: de_core_news_lg mengendalikan kata nama majmuk dan corak nama Jerman.
Untuk Perancis: fr_core_news_lg mengendalikan entiti Perancis, gelaran, nama tempat, dan organisasi.
Model natif mengatasi model rentas bahasa untuk pengimbasan nama pada lokasi sumber tinggi.
Tahap 2: Stanza untuk Lebih Banyak Lokasi
Perpustakaan Stanza Stanford meliputi lokasi yang tidak ada dalam spaCy. Ini termasuk Croatia, Slovenia, dan Ukraine. Ini menambah jangkauan untuk kumpulan penutur EU yang tidak dilayani spaCy. Stanza adalah percuma dan sumber terbuka. Ia berintegrasi dengan baik dengan selebihnya tindanan.
Tahap 3: XLM-RoBERTa untuk Jangkauan Luas
Untuk lokasi di mana spaCy dan Stanza kekurangan model NER, XLM-RoBERTa mengisi jurang tersebut. Ia dilatih pada teks Common Crawl merentasi 100 lokasi. Ia mencapai F1 rentas bahasa 91.4% untuk pengesanan PII (HuggingFace 2024). Ia mengendalikan pertukaran kod dengan baik. Itu adalah ciri utama. Ia penting apabila satu dokumen mengandungi teks dalam beberapa lokasi sekaligus.
Lawati dokumen sistem token kami untuk melihat cara panggilan API berskala dengan volum pelbagai bahasa.
Jenis Entiti Khusus Lokasi
Model sahaja tidak mencukupi. Penjajaran GDPR juga memerlukan skop jenis entiti untuk ID khusus negara.
ID Nasional EU mengikut negara:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Format telefon: Setiap negara EU mempunyai struktur awalan yang unik. +49, +33, dan +48 masing-masing memerlukan logik pengesahan sendiri.
Format alamat: Kod pos berbeza-beza. PLZ Jerman menggunakan 5 digit. Kod Perancis menggunakan 5 digit (julat 01–99). Poskod UK adalah alfanumerik. Kod Sepanyol menggunakan 5 digit (01000–52999).
Kes Dunia Sebenar: Farmaseutikal Swiss
Sebuah firma Swiss memproses kontrak pekerjaan. Setiap kontrak mencampurkan teks Jerman, Perancis, dan Inggeris. Switzerland mempunyai empat bahasa rasmi. Alat mereka ditetapkan untuk bahasa Jerman sahaja. Ia terlepas semua PII bahagian Perancis.
Kontrak untuk pekerja yang berpangkalan di Geneva termasuk nombor AVS Perancis (13 digit), IBAN bank Swiss, dan nama dalam format Perancis. Alat hanya bahasa Jerman terlepas nama format Perancis. Ia gagal menemui nombor AVS format Perancis. Ia hanya sebahagiannya mengesan IBAN.
Pendekatan tiga tahap memproses keseluruhan dokumen. Ia mengesan lokasi setiap segmen teks. Ia menerapkan model NER yang betul untuk setiap bahagian. Ia mengesahkan setiap ID nasional dengan logik negara yang betul.
Dokumen Pelbagai Lokasi Bercampur
Kes paling sukar adalah pencampuran lokasi intra-dokumen. Contoh:
- Kontrak bahasa Inggeris firma Jerman dengan rekod pekerja Jerman (nama, ID cukai)
- Borang persetujuan GDPR Perancis dengan petikan privasi bahasa Inggeris
- Sembang di mana ejen membalas dalam bahasa Inggeris dan pelanggan menulis dalam bahasa Arab
XLM-RoBERTa mengendalikan ini secara natif. Ia tidak memerlukan penanda lokasi eksplisit. Ia memproses teks pelbagai lokasi tanpa segmentasi awal. Ini menjimatkan masa. Ia juga mengelakkan ralat daripada pemisahan yang salah.
Untuk penggunaan pengeluaran, menggabungkan pengesanan lokasi automatik (di peringkat ayat) dengan inferens XLM-RoBERTa memberikan pengendalian teguh dokumen pelbagai lokasi.
Langkah-Langkah Praktikal
Audit jangkauan alat anda. Tanya vendor penyuntingan anda untuk skor F1 bagi lokasi tertentu anda. "Menyokong 20 bahasa" sering bermakna alat menghalakan teks melalui terjemahan mesin dahulu. Itu bukan pengimbasan natif.
Petakan rekod anda kepada lokasi. Buat inventori rekod yang merangkumi pengedaran lokasi. Firma global dengan 70% Inggeris, 20% Jerman, dan 10% Perancis menghadapi risiko yang berbeza. Satu dengan 95% Inggeris berada dalam kedudukan berbeza.
Uji dengan sampel ID nasional. Bina set ujian dengan 10 contoh ID nasional dalam operasi anda — Steuer-ID, NIR, PESEL, BSN, dan lain-lain. Sahkan kadar pengesanan. Ini lebih cepat daripada ujian F1 penuh.
Semak semula DPIA anda. Semak sama ada skop lokasi disertakan. DPIA yang tidak lengkap yang mengandaikan rekod hanya bahasa Inggeris mungkin perlu dikemas kini. Bertindak sekarang. Jangan tunggu audit untuk menemui jurang itu.
Untuk definisi jenis entiti penuh, lihat rujukan entiti dan FAQ. Untuk pelan dan kadar panggilan API, lawati harga.
Enjin pengesanan PII anonym.legal menggunakan pendekatan pelbagai bahasa tiga tahap. Ia meliputi 25 lokasi sumber tinggi melalui model spaCy natif. Stanza menambah jangkauan lokasi tambahan. Transformer rentas bahasa XLM-RoBERTa memperluaskan skop kepada 48 lokasi. Jenis entiti khusus negara untuk semua negara anggota EU disertakan.
Sumber
- ACL 2024: Pengesanan PII Hibrid untuk Lokasi Eropah
- Rangka Kerja Anotasi PII Pelbagai Bahasa Berskala (arXiv 2025)
- Penanda Aras NER Rentas Bahasa XLM-RoBERTa HuggingFace
- Isu GitHub Microsoft Presidio #1071 — Positif Palsu Jerman
- Garis Panduan EDPB mengenai Artikel 25 Privasi mengikut Reka Bentuk
- Laporan Tahunan CNIL 2024