By · Last updated 2026-03-03

Kembali ke BlogGDPR & Kepatuhan

Deteksi PII Multibahasa untuk Kepatuhan GDPR

Steuer-ID Jerman, NIR Prancis, dan Personnummer Swedia semuanya memerlukan logika deteksi yang berbeda. Pelajari cara membangun kepatuhan GDPR yang sesungguhnya lintas bahasa.

March 3, 202610 menit baca
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Kesenjangan Kepatuhan GDPR yang Tersembunyi

GDPR tidak memiliki preferensi bahasa. Pasal 4(1) mendefinisikan "data pribadi" tanpa mengacu pada bahasa yang digunakan. Steuer-ID Jerman sama terlindunginya dengan Nomor Jaminan Sosial AS. NIR Prancis sama diaturnya dengan nomor National Insurance Inggris.

Namun sebagian besar alat deteksi PII dibangun untuk bahasa Inggris.

Penelitian yang dipresentasikan di ACL 2024 menemukan bahwa pendekatan NLP hibrida mencapai skor F1 0,60-0,83 untuk lokal Eropa — namun alat hanya-Inggris yang diterapkan pada teks non-Inggris mendapat skor mendekati nol untuk pengidentifikasi nasional terstruktur. Implikasi praktisnya: alat anonimisasi yang diterapkan di seluruh organisasi multinasional mungkin mendeteksi 95% PII bahasa Inggris sambil melewatkan 40-60% PII bahasa Jerman, Prancis, Polandia, atau Belanda dalam dataset yang sama.

Ini adalah kesenjangan kepatuhan GDPR sistematis yang mempengaruhi hampir setiap enterprise multinasional yang menggunakan alat anonimisasi berbasis bahasa Inggris.

Mengapa PII Spesifik per Bahasa

Deteksi PII memiliki dua komponen: deteksi berbasis pola (pengidentifikasi terstruktur seperti NPWP, format telepon) dan deteksi berbasis NER (entitas kontekstual seperti nama orang, nama organisasi, alamat).

Kedua komponen sangat bergantung pada bahasa.

Pengidentifikasi Terstruktur Berbeda Drastis per Negara

NegaraPengidentifikasi PajakFormatPersyaratan Deteksi
JermanSteuer-ID11 digit, algoritma checksumValidasi Modulo-11
PrancisNIR15 digit + kunci 2 digitValidasi algoritma INSEE
SwediaPersonnummer10 digit, indikator abadValidasi Luhn
PolandiaPESEL11 digit, tanggal lahir tersandiValidasi Modulo-10
BelandaBSN9 digit, elfproef (11-check)Algoritma Elfproef
SpanyolDNI/NIE8 digit + hurufValidasi Modulo-23
ItaliaCodice Fiscale16 alfanumerikChecksum kompleks

Pola regex hanya-Inggris untuk SSN (format: NNN-NN-NNNN) tidak akan cocok dengan pengidentifikasi mana pun dari daftar di atas. Setiap satu memerlukan logika regex spesifik negara ditambah validasi checksum.

Pengenalan Entitas Bernama Memerlukan Model Native Bahasa

Nama orang dalam bahasa Jerman mengikuti pola yang berbeda dari nama bahasa Inggris. "Hans-Dieter Müller" dan "Anna-Lena Schreiber-Koch" dapat dikenali sebagai nama Jerman berdasarkan konteks — namun model yang dilatih terutama pada teks bahasa Inggris akan sering melewatkan atau salah mengklasifikasikannya.

Yang lebih bermasalah: false positif dalam satu bahasa dapat menjadi false negatif dalam bahasa lain. Pelacak masalah GitHub Microsoft Presidio mendokumentasikan false positif sistematis untuk kata-kata Jerman yang salah diklasifikasikan sebagai PII bahasa Inggris. Kata yang sama "Null" (bahasa Jerman untuk "nol") memicu false positif deteksi nama dalam model terlatih bahasa Inggris. Ini meningkatkan tingkat false positif hingga 3 kesalahan per 1 entitas nyata dalam lingkungan produksi multibahasa (Alvaro dkk., 2024).

Eksposur Regulasi

Otoritas perlindungan data UE semakin menyadari kesenjangan ini. Beberapa DPA nasional telah mengeluarkan panduan atau tindakan penegakan yang mengimplikasikan pemrosesan multibahasa:

BfDI Jerman: Telah mengklarifikasi bahwa GDPR Pasal 5(1)(f) (integritas dan kerahasiaan) berlaku untuk data dalam semua bentuk pemrosesan, termasuk data non-Inggris yang diproses oleh alat pihak ketiga.

CNIL Prancis: Laporan Tahunan CNIL 2024 mencatat kekhawatiran yang semakin meningkat tentang alat AI yang memproses data berbahasa Prancis tanpa kemampuan deteksi PII berbahasa Prancis.

DPA Eropa secara umum: Berdasarkan GDPR Pasal 25 (Privasi by Design), langkah-langkah teknis harus sesuai untuk data yang sebenarnya diproses — termasuk PII non-Inggris dalam deployment multinasional.

Risiko praktisnya: sebuah organisasi dapat menunjukkan efektivitas deteksi PII 95% pada konten bahasa Inggris selama audit GDPR, tetapi jika mereka juga memproses konten bahasa Jerman, Prancis, dan Polandia dengan alat yang sama, audit mungkin mengungkap kesenjangan sistematis untuk bahasa-bahasa tersebut.

Pendekatan Tiga Tingkat untuk Deteksi PII Multibahasa

Penelitian akademik dan deployment produksi telah bersatu pada arsitektur hibrida tiga tingkat sebagai pendekatan paling efektif untuk deteksi PII multibahasa:

Tingkat 1: Model spaCy Native Bahasa (Bahasa Sumber Daya Tinggi)

spaCy menyediakan komponen pipeline terlatih untuk 25 bahasa termasuk Jerman, Prancis, Spanyol, Portugis, Italia, Belanda, Rusia, Mandarin, Jepang, Korea, Polandia, dan lainnya. Model-model ini dilatih pada korpus native bahasa dan memahami morfologi, sintaksis, dan pola entitas setiap bahasa.

Untuk bahasa Jerman: model spaCy de_core_news_lg memahami kata majemuk, infleksi kasus, dan pola nama Jerman. Untuk bahasa Prancis: fr_core_news_lg menangani pola entitas Prancis termasuk gelar, nama tempat, dan format organisasi.

Model native bahasa mencapai presisi dan recall yang jauh lebih tinggi untuk deteksi nama dibandingkan model lintas bahasa yang diterapkan pada bahasa tertentu dengan sumber daya tinggi.

Tingkat 2: Stanza (Bahasa Tambahan)

Perpustakaan Stanza Stanford menyediakan NER untuk bahasa tambahan yang tidak tercakup oleh penawaran komersial spaCy, termasuk Kroasia, Slovenia, Ukraina, dan lainnya. Ini memperluas cakupan ke bahasa dengan populasi penutur UE yang lebih kecil namun masih signifikan.

Tingkat 3: XLM-RoBERTa (Cakupan Lintas Bahasa)

Untuk bahasa di mana spaCy maupun Stanza tidak menyediakan model NER terlatih, XLM-RoBERTa memberikan transfer lintas bahasa. Dilatih pada data Common Crawl dalam 100 bahasa, XLM-RoBERTa mencapai F1 lintas bahasa 91,4% untuk deteksi PII (HuggingFace 2024), memungkinkan deteksi yang wajar untuk bahasa dengan sumber daya lebih rendah.

Model lintas bahasa menangani pergantian kode (teks multibahasa campuran) dengan sangat baik — properti yang menjadi kritis untuk organisasi internasional di mana satu dokumen mungkin mengandung teks dalam beberapa bahasa.

Tipe Entitas Spesifik Bahasa

Di luar model deteksi, kepatuhan GDPR memerlukan cakupan tipe entitas untuk pengidentifikasi spesifik negara. Alat multibahasa membutuhkan:

Pengidentifikasi Nasional UE:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET, numéro de téléphone
  • PL: PESEL, NIP, REGON
  • NL: BSN, BurgerServiceNummer
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Format Nomor Telepon: Setiap negara UE memiliki struktur awalan seluler, format kode area, dan konvensi panggilan lokal yang unik. +49 (Jerman), +33 (Prancis), +48 (Polandia) semuanya memerlukan validasi spesifik negara.

Format Alamat: Format kode pos berbeda secara drastis — PLZ Jerman (5 digit), kode pos Prancis (5 digit mulai 01-99), kode pos Inggris (alfanumerik, beberapa format), kode pos Spanyol (5 digit 01000-52999).

Kasus Penggunaan: Dokumen Multibahasa Perusahaan Farmasi Swiss

Sebuah perusahaan farmasi Swiss memproses kontrak kerja yang mengandung teks dalam bahasa Jerman, Prancis, dan Inggris dalam dokumen yang sama (Swiss memiliki empat bahasa resmi). Alat mereka saat ini dikonfigurasi untuk bahasa Jerman dan melewatkan semua PII bagian berbahasa Prancis.

Kontrak kerja untuk karyawan berbasis Jenewa mereferensikan nomor AVS Prancis mereka (13 digit), IBAN rekening bank Swiss mereka, kanton tempat tinggal mereka, dan nama mereka dalam format Prancis. Alat yang dikonfigurasi untuk bahasa Jerman melewatkan nama berformat Prancis, gagal mendeteksi pola nomor AVS Prancis (berbeda dari format AHV-Nummer Jerman), dan hanya sebagian mendeteksi IBAN.

Pendekatan tiga tingkat memproses dokumen secara keseluruhan, mendeteksi bahasa secara otomatis untuk setiap segmen teks, menerapkan model NER yang sesuai bahasa, dan menggunakan validator regex spesifik negara untuk setiap tipe pengidentifikasi nasional — terlepas dari bagian bahasa mana tempatnya muncul.

Penanganan Dokumen Campuran Bahasa

Masalah PII multibahasa yang paling sulit adalah pencampuran bahasa intra-dokumen: dokumen yang mengandung paragraf dalam bahasa berbeda, kalimat yang mengalihkan kode, atau teks yang dikutip dalam bahasa berbeda dari konteks sekitarnya.

Contoh:

  • Kontrak berbahasa Inggris perusahaan Jerman dengan data karyawan Jerman (nama, NPWP)
  • Formulir persetujuan GDPR berbahasa Prancis yang menyertakan kutipan kebijakan privasi berbahasa Inggris
  • Log obrolan layanan pelanggan multibahasa di mana agen merespons dalam bahasa Inggris tetapi pelanggan menulis dalam bahasa Arab

XLM-RoBERTa menangani ini secara native: pelatihan lintas bahasanya berarti tidak memerlukan deklarasi bahasa eksplisit dan memproses teks multibahasa campuran tanpa memerlukan segmentasi.

Untuk deployment produksi, kombinasi deteksi bahasa otomatis (diterapkan pada tingkat kalimat) dan inferensi lintas bahasa XLM-RoBERTa memberikan penanganan dokumen campuran bahasa yang paling robust.

Panduan Deployment Praktis

Audit cakupan bahasa alat Anda saat ini: Tanyakan kepada vendor anonimisasi Anda saat ini untuk memberikan skor F1 untuk bahasa-bahasa spesifik dalam data Anda. "Mendukung 20 bahasa" seringkali berarti alat meneruskan teks melalui Google Translate sebelum menerapkan NER terlatih bahasa Inggris — yang bukan sama dengan deteksi native bahasa.

Petakan data Anda ke bahasa: Lakukan inventaris data yang mencakup distribusi bahasa. Perusahaan multinasional dengan 70% bahasa Inggris, 20% bahasa Jerman, dan 10% bahasa Prancis memiliki eksposur risiko yang berbeda dengan yang memiliki 95% bahasa Inggris.

Uji dengan sampel pengidentifikasi nasional: Buat dataset uji dengan 10 contoh masing-masing pengidentifikasi nasional yang relevan untuk operasi Anda (Steuer-ID, NIR, PESEL, BSN, dll.) dan verifikasi tingkat deteksi. Ini adalah audit yang lebih cepat daripada evaluasi F1 skala besar.

Tinjau DPIA Anda: Jika Anda memiliki Penilaian Dampak Perlindungan Data yang mencakup alat anonimisasi Anda, pastikan analisis cakupan bahasa disertakan. DPIA yang tidak lengkap yang mengasumsikan cakupan hanya bahasa Inggris mungkin perlu diperbarui.


Mesin deteksi PII anonym.legal menggunakan pendekatan multibahasa tiga tingkat: model spaCy native bahasa untuk 25 bahasa sumber daya tinggi, Stanza untuk cakupan bahasa tambahan, dan transformer lintas bahasa XLM-RoBERTa untuk cakupan 48 bahasa secara keseluruhan. Tipe entitas spesifik negara untuk semua negara anggota UE disertakan.

Sumber:

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.