Japan My Number: APPI dan Semakan Verhoeff
Komisyen Perlindungan Maklumat Peribadi Jepun (PPC) mengeluarkan 45 keputusan penguatkuasaan pada 2024. Ia juga menerbitkan panduan privasi AI pertama Jepun. Kajian PPC mendapati bahawa 63% alat NLP generik gagal mengesan My Number (マイナンバー) dalam fail Jepun. Jika pasukan anda mengendalikan data pemastautin Jepun, jurang itu bermakna risiko APPI langsung.
Apakah My Number
Jepun memberikan setiap pemastautin pengenal unik 12 digit. Ini ialah My Number, sebahagian daripada Sistem Nombor Individu (マイナンバー制度). Ia meliputi cukai, pencen, insurans kesihatan, dan tindak balas bencana. Pengenal ini merupakan data sensitif di bawah APPI. Anda memerlukan alasan undang-undang untuk mengumpul atau berkongsinya.
Masalah Semakan Verhoeff
My Number menggunakan algoritma Verhoeff untuk digit semaknya. Verhoeff ialah kaedah matematik yang menangkap semua ralat digit tunggal. Ia juga menangkap semua ralat di mana dua digit bersebelahan bertukar. Ia memerlukan tiga jadual carian untuk berfungsi. Anda tidak dapat mengiranya secara manual. Ia memerlukan kod.
Ini penting atas dua sebab. Pertama, format 12 digit Jepun kelihatan seperti banyak kod lain. Rujukan invois, ID dokumen, dan rentetan tarikh semuanya berkongsi format yang sama. Tanpa semakan Verhoeff, alat akan menandakan nilai yang salah. Kedua, kebanyakan alat tidak menggunakan Verhoeff. Mereka menggunakan semakan modulo-10 atau modulo-11 yang lebih mudah. Semakan itu tidak berfungsi di sini.
Kajian PPC mendapati bahawa 63% alat sama ada melangkau semakan atau menggunakan kaedah yang lebih mudah. Kedua-dua masalah berlaku serentak: positif palsu dan negatif palsu.
Algoritma Luhn, yang digunakan untuk kad kredit, lebih mudah. My Number tidak menggunakan Luhn. Alat yang dibina untuk Luhn tidak akan berfungsi.
Tiga Skrip, Satu Nama
Teks Jepun menggunakan tiga sistem penulisan serentak. Alat mesti mengendalikan ketiga-tiganya.
Hiragana (ひらがな): Digunakan untuk tatabahasa dan perkataan asli. 46 aksara asas.
Katakana (カタカナ): Digunakan untuk perkataan dan nama asing. 46 aksara asas. Nama asing di Jepun muncul dalam skrip ini.
Kanji (漢字): Simbol untuk kata nama dan nama. Kira-kira 2,000 dalam penggunaan biasa.
Nama seseorang boleh muncul dalam empat bentuk: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), dan Romaji (Tanaka Taro). Alat mesti memadankan keempat-empatnya. Jika ia terlepas satu, ia terlepas kebanyakan rekod orang itu.
ID Jepun Lain untuk Dikesan
Lesen memandu (運転免許証番号): 12 digit. Dua digit pertama menunjukkan wilayah. Tokyo ialah 10. Osaka ialah 62. Ini membolehkan alat menyemak sama ada nilai itu sah untuk kawasan tersebut.
Pasport (旅券番号): Dua huruf ditambah tujuh digit. Format ICAO. Jepun menggunakan pasangan huruf tertentu.
Kad insurans kesihatan (健康保険証記号番号): Simbol ditambah nombor. Format bergantung pada penanggung insurans. Insurans Kesihatan Negara (国民健康保険) dan Insurans Diuruskan Masyarakat (協会けんぽ) menggunakan format berbeza.
Kad kediaman (在留カード番号): Untuk pemastautin asing. Dua huruf, lapan digit, dua huruf. Kementerian Kehakiman mengeluarkan kad ini.
Peraturan Penganoniman APPI
APPI mempunyai piawaian data tanpa nama yang ketat yang dipanggil maklumat tanpa nama (匿名加工情報). Ia melangkaui GDPR dalam satu bidang utama. Penganoniman mesti boleh disahkan pihak ketiga dan tidak boleh diterbalikkan secara teknikal.
Untuk mematuhi, sesebuah organisasi mesti:
- Buang semua pengenal langsung, termasuk My Number.
- Kendalikan semua kombinasi kuasi-pengenal.
- Gunakan k-anonymity atau kaedah yang serupa.
- Terbitkan penerangan umum tentang langkah-langkah yang diambil.
- Jangan sekali-kali cuba mengenal semula data tersebut.
Panduan AI PPC 2024 menambah peraturan khusus. Jika anda melatih AI pada data tanpa nama, anda tidak boleh menggunakan model itu untuk mengenal semula orang. Ini merupakan larangan langsung terhadap serangan penyongsangan model ke atas set latihan APPI.
Untuk memenuhi piawaian PPC, anda memerlukan empat perkara. Pertama, pengesahan Verhoeff untuk pengesanan My Number. Kedua, NER Jepun menggunakan ja_core_news dengan tokenisasi yang betul. Ketiga, pemadanan nama merentasi Kanji, Kana, dan Romaji. Keempat, semakan kod wilayah untuk lesen memandu.
India menggunakan Aadhaar, yang juga memerlukan pengesahan Verhoeff. Panduan pematuhan teknikal India DPDPA merangkumi itu secara terperinci. Untuk pengesanan pengenal pelbagai negara, lihat pengesanan ID cukai negara EU di bawah GDPR.