PPC Jepun dan APPI: Pematuhan Data Latihan AI
PPC Jepun menguatkuasakan APPI. Pindaan 2022 mengubah undang-undang ini lebih banyak daripada sebarang kemas kini sebelumnya. Ia menambah peraturan untuk rekod yang dipseudonymkan, pemindahan rentas sempadan, dan set latihan AI. PPC mengeluarkan 45 keputusan pada tahun 2024. Ia juga menerbitkan panduan privasi AI khusus Jepun pertama pada tahun tersebut.
Jika firma anda melatih model pada teks Jepun atau menyimpan rekod pengguna Jepun, peraturan ini berkuat kuasa sekarang.
Apa yang Berubah dengan Pindaan 2022
2.4 juta firma Jepun terpaksa mengemas kini peraturan privasi dan mengubah semula langkah pengendalian.
Maklumat yang dipseudonymkan (仮名加工情報): Kelas tengah yang baharu. Ia meliputi rekod peribadi dengan pengecam langsung yang dikeluarkan. Pengecaman semula masih mungkin jika anda mempunyai kunci. Rekod ini boleh bergerak dalam organisasi tanpa persetujuan penuh. Ia tidak boleh diberikan kepada pihak ketiga. GDPR tidak mempunyai kelas sedemikian.
Maklumat tanpa nama (匿名加工情報): Pengecaman semula mesti mustahil secara teknikal. Pihak ketiga yang berkelayakan mesti mengesahkannya. Piawaian Jepun lebih tinggi daripada GDPR pada perkara ini. GDPR menjadikan semakan tersebut pilihan. APPI menjadikannya wajib.
Pemindahan rentas sempadan: Pemindahan ke negara lain mesti memenuhi piawaian perlindungan Jepun. PPC menyimpan senarai negara yang diluluskan. EU terdapat dalam senarai tersebut.
Set latihan AI: Panduan PPC dari 2024 meliputi perkara ini secara langsung.
- Set latihan mesti ditanpa-namakan sepenuhnya atau berdasarkan asas undang-undang yang sah — biasanya persetujuan.
- Pengecualian pemprosesan hanya terpakai jika model tidak dapat mengenal pasti orang daripada outputnya.
- Pembangun LLM yang melatih pada rekod Jepun yang diambil dari laman web mesti menunjukkan asas pengumpulan yang sah.
Untuk paparan penuh tentang tugas penjajaran rentas sempadan, lihat /legal/compliance.
My Number: ID Kebangsaan Jepun
My Number (マイナンバー) ialah ID kebangsaan 12 digit. Jepun mengeluarkannya kepada semua penduduk. Warganegara asing juga mendapatnya. Sistem ini beroperasi sejak 2016. Ia meliputi cukai, keselamatan sosial, dan tindak balas bencana.
Cara digit semak berfungsi: My Number menggunakan kaedah Verhoeff. Ia adalah skim semakan ralat berasaskan matematik. Ia lebih sukar untuk dibina daripada Luhn — kaedah yang digunakan untuk personnummer Sweden dan SIN Kanada. Kebanyakan ID Eropah menggunakan matematik modular yang lebih mudah.
Mengapa pengesanan sukar: Imbasan untuk rentetan 12 digit akan terlepas sasaran. Tarikh, kod pos, dan kod invois semuanya kelihatan sama. Anda memerlukan logik Verhoeff penuh untuk memisahkannya. Ungkapan biasa yang mudah tidak mencukupi.
Semakan PPC 2024 mempunyai penemuan yang ketara. 63% alat NLP generik gagal mengesan My Number dalam rekod Jepun.
Lihat cara anonym.legal mengendalikan My Number di /entities.
Tiga Sistem Penulisan Serentak
Bahasa Jepun menggunakan Hiragana, Katakana, dan Kanji serentak. Skrip Roman muncul dalam beberapa konteks juga. Nama yang sama mungkin kelihatan berbeza merentasi rekod. Alat yang dibina untuk teks skrip Latin gagal pada bahasa Jepun tanpa sokongan tambahan.
Maksud ini untuk pengesanan nama:
- NER Jepun memerlukan model yang dilatih pada teks Jepun. Gunakan spaCy ja_core_news.
- Bahasa Jepun tidak mempunyai ruang antara perkataan. Pemisahan perkataan adalah langkah tersendiri. Ia memerlukan alat yang sedar Jepun.
- Nama seseorang muncul dalam Kanji dengan panduan bacaan dalam Hiragana atau Katakana. Alat mesti menangkap kedua-dua bentuk.
- Nama syarikat (会社名, 株式会社) memerlukan peraturan khusus Jepun.
Untuk NER merentasi bahasa APAC, lihat /docs/faq.
Format ID Jepun Lain
Lesen memandu: 12 digit dengan kod awalan untuk rantau keluaran. Kod adalah tetap — Tokyo ialah 10, Osaka ialah 62. Bahagian rantau boleh disemak.
Pasport: Format ICAO standard dengan peraturan keluaran khusus Jepun.
Kad Insurans Kesihatan (健康保険証): Simbol (記号) tambah nombor. Format berbeza mengikut penanggung insurans.
Kad Kediaman (在留カード): Untuk penduduk asing. Format: dua huruf, lapan digit, dua huruf. Kementerian Kehakiman mengeluarkan ini.
Status Pemindahan Data Jepun-EU
Jepun dan EU mempunyai kecukupan bersama sejak 2019. Rekod peribadi mengalir antara EU dan Jepun tanpa langkah tambahan. Jepun adalah salah satu daripada sangat sedikit negara bukan Eropah dengan kecukupan EU penuh.
Perjanjian itu meliputi rekod peribadi standard. Rekod kesihatan dan sejarah jenayah yang sensitif memerlukan perlindungan tambahan walaupun di bawah kecukupan. Firma yang memindahkan rekod ini mesti mencatat langkah tambahan yang mereka gunakan.
Semak tugas pemindahan anda di /security-compliance.
Senarai Semak Pematuhan Jepun Anda
Mula di sini jika anda mengendalikan rekod peribadi Jepun:
- Pengesanan My Number dengan logik digit semak Verhoeff.
- NER Jepun dengan model yang dilatih pada teks skrip Jepun — bukan model skrip Latin.
- Sokongan untuk bentuk nama Kanji, Hiragana, dan Katakana serta varian panduan bacaan.
- Pengesanan lesen memandu dengan semakan kod rantau.
- Pengesanan Kad Kediaman dengan logik format MOJ.
- Pengesanan Kad Insurans Kesihatan merentasi varian penanggung insurans.
- Asas undang-undang yang sah untuk setiap set latihan AI yang menyimpan rekod peribadi.
- Semakan pihak ketiga untuk sebarang rekod yang diklasifikasikan sebagai tanpa nama di bawah APPI.
- Perlindungan tambahan untuk rekod sensitif yang bergerak di bawah perjanjian kecukupan EU-Jepun.
Lihat /docs/glossary untuk definisi istilah APPI yang digunakan dalam panduan ini.