Japan PPC dan APPI: Kepatuhan Data Pelatihan AI
PPC Jepang menegakkan APPI. Amandemen 2022 mengubah undang-undang ini lebih drastis dibandingkan pembaruan sebelumnya. Amandemen ini menambahkan aturan untuk data pseudonim, transfer lintas batas, dan set data pelatihan AI. PPC mengeluarkan 45 putusan pada 2024. PPC juga menerbitkan panduan privasi AI pertama yang khusus untuk Jepang pada tahun yang sama.
Jika perusahaan Anda melatih model pada teks berbahasa Jepang atau menyimpan data pengguna Jepang, aturan ini berlaku sekarang.
Apa yang Diubah oleh Amandemen 2022
Sebanyak 2,4 juta perusahaan Jepang harus memperbarui aturan privasi dan mengubah prosedur penanganan data.
Informasi pseudonim (仮名加工情報): Kelas menengah baru. Mencakup data pribadi yang telah dihapus pengenalnya secara langsung. Re-identifikasi masih mungkin jika Anda memiliki kunci. Data ini dapat berpindah di dalam organisasi tanpa persetujuan penuh. Data ini tidak boleh diberikan kepada pihak ketiga. GDPR tidak memiliki kelas seperti ini.
Informasi anonim (匿名加工情報): Re-identifikasi harus secara teknis tidak mungkin. Pihak ketiga yang memenuhi syarat harus mengonfirmasi hal ini. Standar Jepang lebih tinggi dari GDPR pada poin ini. GDPR membuat tinjauan tersebut opsional. APPI mewajibkannya.
Transfer lintas batas: Transfer ke negara lain harus memenuhi standar perlindungan Jepang. PPC memelihara daftar negara yang disetujui. Uni Eropa ada dalam daftar tersebut.
Set data pelatihan AI: Panduan PPC tahun 2024 mencakup ini secara langsung.
- Set data pelatihan harus sepenuhnya dianonimkan atau memiliki dasar hukum yang valid — biasanya persetujuan.
- Pengecualian pemrosesan hanya berlaku jika model tidak dapat mengidentifikasi orang dari hasilnya.
- Pengembang LLM yang melatih data Jepang yang diambil dari situs web harus menunjukkan dasar pengumpulan yang valid.
Untuk tampilan lengkap kewajiban penyelarasan transfer lintas batas, lihat /legal/compliance.
My Number: ID Nasional Jepang
My Number (マイナンバー) adalah ID nasional 12 digit. Jepang menerbitkannya untuk semua penduduk. Warga negara asing pun mendapatkannya. Sistem ini telah beroperasi sejak 2016. Ini mencakup pajak, jaminan sosial, dan respons bencana.
Cara kerja digit cek: My Number menggunakan metode Verhoeff. Ini adalah skema pemeriksaan kesalahan berbasis matematika. Lebih sulit dibangun daripada Luhn — metode yang digunakan untuk personnummer Swedia dan SIN Kanada. Sebagian besar ID Eropa menggunakan matematika modular yang lebih sederhana.
Mengapa deteksi sulit: Pemindaian untuk string 12 digit tidak akan akurat. Tanggal, kode pos, dan kode faktur semuanya terlihat sama. Anda memerlukan logika Verhoeff penuh untuk membedakannya. Regex sederhana tidak cukup.
Tinjauan PPC tahun 2024 menemukan fakta mengejutkan: 63% alat NLP generik gagal mendeteksi My Number dalam catatan berbahasa Jepang.
Lihat cara anonym.legal menangani My Number di /entities.
Tiga Sistem Tulisan Sekaligus
Bahasa Jepang menggunakan Hiragana, Katakana, dan Kanji secara bersamaan. Aksara Latin juga muncul dalam beberapa konteks. Nama yang sama mungkin terlihat berbeda di berbagai catatan. Alat yang dibuat untuk teks berbasis aksara Latin gagal pada bahasa Jepang tanpa dukungan tambahan.
Implikasi untuk deteksi nama:
- NER bahasa Jepang membutuhkan model yang dilatih pada teks berbahasa Jepang. Gunakan spaCy ja_core_news.
- Bahasa Jepang tidak memiliki spasi antar kata. Pemisahan kata adalah langkah tersendiri. Ini membutuhkan alat yang sadar bahasa Jepang.
- Nama orang muncul dalam Kanji dengan panduan baca dalam Hiragana atau Katakana. Alat harus menangkap kedua bentuk tersebut.
- Nama perusahaan (会社名, 株式会社) membutuhkan aturan khusus Jepang.
Untuk NER di berbagai bahasa APAC, lihat /docs/faq.
Format ID Jepang Lainnya
SIM: 12 digit dengan kode awalan untuk wilayah penerbitan. Kode-kode tersebut tetap — Tokyo adalah 10, Osaka adalah 62. Bagian wilayah dapat diverifikasi.
Paspor: Format ICAO standar dengan aturan penerbitan khusus Jepang.
Kartu Asuransi Kesehatan (健康保険証): Simbol (記号) ditambah nomor. Format bervariasi menurut penanggung asuransi.
Kartu Residensi (在留カード): Untuk penduduk asing. Format: dua huruf, delapan digit, dua huruf. Kementerian Kehakiman menerbitkan kartu ini.
Status Transfer Data Jepang–UE
Jepang dan UE memiliki kecukupan timbal balik sejak 2019. Data pribadi mengalir antara UE dan Jepang tanpa langkah tambahan. Jepang adalah salah satu dari sangat sedikit negara non-Eropa dengan kecukupan UE penuh.
Kesepakatan ini mencakup data pribadi standar. Data kesehatan sensitif dan riwayat kriminal memerlukan perlindungan tambahan bahkan di bawah kecukupan. Perusahaan yang memindahkan data ini harus mencatat langkah tambahan yang mereka gunakan.
Tinjau kewajiban transfer Anda di /security-compliance.
Daftar Periksa Kepatuhan Jepang
Mulai dari sini jika Anda menangani data pribadi Jepang:
- Deteksi My Number dengan logika digit cek Verhoeff.
- NER bahasa Jepang dengan model yang dilatih pada teks berbahasa Jepang — bukan model berbasis Latin.
- Dukungan untuk bentuk nama Kanji, Hiragana, dan Katakana beserta varian panduan bacanya.
- Deteksi SIM dengan pemeriksaan kode wilayah.
- Deteksi Kartu Residensi dengan logika format Kementerian Kehakiman.
- Deteksi Kartu Asuransi Kesehatan di berbagai varian penanggung asuransi.
- Dasar hukum yang valid untuk setiap set data pelatihan AI yang menyimpan data pribadi.
- Tinjauan pihak ketiga untuk data apa pun yang diklasifikasikan sebagai anonim di bawah APPI.
- Perlindungan tambahan untuk data sensitif yang dipindahkan dalam perjanjian kecukupan UE–Jepang.
Lihat /docs/glossary untuk definisi istilah APPI yang digunakan dalam panduan ini.