My Number Jepang: APPI dan Cek Verhoeff
Komisi Perlindungan Informasi Pribadi Jepang (PPC) mengeluarkan 45 keputusan penegakan pada 2024. PPC juga menerbitkan panduan privasi AI pertama Jepang. Sebuah studi PPC menemukan bahwa 63% alat NLP generik gagal mendeteksi My Number (マイナンバー) dalam file berbahasa Jepang. Jika tim Anda menangani data penduduk Jepang, celah tersebut berarti risiko APPI langsung.
Apa Itu My Number
Jepang memberikan setiap penduduk pengenal unik 12 digit. Ini adalah My Number, bagian dari Sistem Nomor Individu (マイナンバー制度). Mencakup pajak, pensiun, asuransi kesehatan, dan respons bencana. Pengenal ini adalah data sensitif di bawah APPI. Anda memerlukan alasan hukum untuk mengumpulkan atau membagikannya.
Masalah Cek Verhoeff
My Number menggunakan algoritma Verhoeff untuk digit ceknya. Verhoeff adalah metode matematika yang menangkap semua kesalahan satu digit. Ini juga menangkap semua kesalahan di mana dua digit yang berdekatan tertukar. Ini memerlukan tiga tabel pencarian untuk bekerja. Anda tidak dapat menghitungnya secara manual. Ini memerlukan kode.
Ini penting karena dua alasan. Pertama, format 12 digit Jepang mirip dengan banyak kode lain. Referensi faktur, ID dokumen, dan string tanggal semuanya berbagi format yang sama. Tanpa cek Verhoeff, alat akan menandai nilai yang salah. Kedua, sebagian besar alat tidak menggunakan Verhoeff. Mereka menggunakan cek modulo-10 atau modulo-11 yang lebih sederhana. Itu tidak bekerja di sini.
Studi PPC menemukan bahwa 63% alat melewati cek atau menggunakan metode yang lebih sederhana. Kedua masalah terjadi sekaligus: positif palsu dan negatif palsu.
Algoritma Luhn, yang digunakan untuk kartu kredit, lebih sederhana. My Number tidak menggunakan Luhn. Alat yang dibangun untuk Luhn tidak akan berfungsi.
Tiga Skrip, Satu Nama
Teks Jepang menggunakan tiga sistem penulisan sekaligus. Alat harus menangani ketiganya.
Hiragana (ひらがな): Digunakan untuk tata bahasa dan kata-kata asli. 46 karakter dasar.
Katakana (カタカナ): Digunakan untuk kata-kata asing dan nama. 46 karakter dasar. Nama asing di Jepang muncul dalam skrip ini.
Kanji (漢字): Simbol untuk kata benda dan nama. Sekitar 2.000 digunakan secara umum.
Nama satu orang dapat muncul dalam empat bentuk: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), dan Romaji (Tanaka Taro). Alat harus mencocokkan keempatnya. Jika melewatkan satu, sebagian besar catatan orang itu terlewatkan.
ID Jepang Lain yang Perlu Dideteksi
SIM (運転免許証番号): 12 digit. Dua digit pertama menunjukkan prefektur. Tokyo adalah 10. Osaka adalah 62. Ini memungkinkan alat memeriksa apakah nilai valid untuk wilayah tersebut.
Paspor (旅券番号): Dua huruf ditambah tujuh digit. Format ICAO. Jepang menggunakan pasangan huruf tertentu.
Kartu asuransi kesehatan (健康保険証記号番号): Simbol ditambah nomor. Formatnya tergantung pada penanggung. Asuransi Kesehatan Nasional (国民健康保険) dan Asuransi yang Dikelola Masyarakat (協会けんぽ) menggunakan format berbeda.
Kartu residensi (在留カード番号): Untuk penduduk asing. Dua huruf, delapan digit, dua huruf. Kementerian Kehakiman menerbitkan kartu ini.
Aturan Anonimisasi APPI
APPI memiliki standar data yang dianonimkan yang ketat yang disebut informasi yang dianonimkan (匿名加工情報). Ini lebih jauh dari GDPR dalam satu area utama. Anonimisasi harus dapat diverifikasi pihak ketiga dan tidak dapat dibalik secara teknis.
Untuk mematuhi, organisasi harus:
- Menghapus semua pengidentifikasi langsung, termasuk My Number.
- Menangani semua kombinasi kuasi-pengidentifikasi.
- Menggunakan k-anonimitas atau metode serupa.
- Menerbitkan deskripsi umum langkah-langkah yang diambil.
- Tidak pernah mencoba mengidentifikasi ulang data.
Panduan AI PPC 2024 menambahkan aturan khusus. Jika Anda melatih AI pada data yang dianonimkan, Anda tidak dapat menggunakan model itu untuk mengidentifikasi ulang orang. Ini adalah larangan langsung terhadap serangan inversi model terhadap set pelatihan APPI.
Untuk memenuhi standar PPC, Anda memerlukan empat hal. Pertama, validasi Verhoeff untuk deteksi My Number. Kedua, NER Jepang menggunakan ja_core_news dengan tokenisasi yang tepat. Ketiga, pencocokan nama di seluruh Kanji, Kana, dan Romaji. Keempat, pemeriksaan kode prefektur untuk SIM.
India menggunakan Aadhaar, yang juga memerlukan validasi Verhoeff. Panduan kepatuhan teknis DPDPA India mencakup hal itu secara terperinci. Untuk deteksi pengidentifikasi multi-negara, lihat deteksi NPWP nasional EU di bawah GDPR.