By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

Japan PPC APPI: Kepatuhan Data Pelatihan AI

PPC Jepang menegakkan APPI dengan amandemen 2022 yang mencakup 2,4 juta perusahaan Jepang. My Number 12 digit memerlukan validasi Verhoeff.

June 5, 202610 menit baca
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

Japan PPC dan APPI: Kepatuhan Data Pelatihan AI

PPC Jepang menegakkan APPI. Amandemen 2022 mengubah undang-undang ini lebih drastis dibandingkan pembaruan sebelumnya. Amandemen ini menambahkan aturan untuk data pseudonim, transfer lintas batas, dan set data pelatihan AI. PPC mengeluarkan 45 putusan pada 2024. PPC juga menerbitkan panduan privasi AI pertama yang khusus untuk Jepang pada tahun yang sama.

Jika perusahaan Anda melatih model pada teks berbahasa Jepang atau menyimpan data pengguna Jepang, aturan ini berlaku sekarang.

Apa yang Diubah oleh Amandemen 2022

Sebanyak 2,4 juta perusahaan Jepang harus memperbarui aturan privasi dan mengubah prosedur penanganan data.

Informasi pseudonim (仮名加工情報): Kelas menengah baru. Mencakup data pribadi yang telah dihapus pengenalnya secara langsung. Re-identifikasi masih mungkin jika Anda memiliki kunci. Data ini dapat berpindah di dalam organisasi tanpa persetujuan penuh. Data ini tidak boleh diberikan kepada pihak ketiga. GDPR tidak memiliki kelas seperti ini.

Informasi anonim (匿名加工情報): Re-identifikasi harus secara teknis tidak mungkin. Pihak ketiga yang memenuhi syarat harus mengonfirmasi hal ini. Standar Jepang lebih tinggi dari GDPR pada poin ini. GDPR membuat tinjauan tersebut opsional. APPI mewajibkannya.

Transfer lintas batas: Transfer ke negara lain harus memenuhi standar perlindungan Jepang. PPC memelihara daftar negara yang disetujui. Uni Eropa ada dalam daftar tersebut.

Set data pelatihan AI: Panduan PPC tahun 2024 mencakup ini secara langsung.

  • Set data pelatihan harus sepenuhnya dianonimkan atau memiliki dasar hukum yang valid — biasanya persetujuan.
  • Pengecualian pemrosesan hanya berlaku jika model tidak dapat mengidentifikasi orang dari hasilnya.
  • Pengembang LLM yang melatih data Jepang yang diambil dari situs web harus menunjukkan dasar pengumpulan yang valid.

Untuk tampilan lengkap kewajiban penyelarasan transfer lintas batas, lihat /legal/compliance.

My Number: ID Nasional Jepang

My Number (マイナンバー) adalah ID nasional 12 digit. Jepang menerbitkannya untuk semua penduduk. Warga negara asing pun mendapatkannya. Sistem ini telah beroperasi sejak 2016. Ini mencakup pajak, jaminan sosial, dan respons bencana.

Cara kerja digit cek: My Number menggunakan metode Verhoeff. Ini adalah skema pemeriksaan kesalahan berbasis matematika. Lebih sulit dibangun daripada Luhn — metode yang digunakan untuk personnummer Swedia dan SIN Kanada. Sebagian besar ID Eropa menggunakan matematika modular yang lebih sederhana.

Mengapa deteksi sulit: Pemindaian untuk string 12 digit tidak akan akurat. Tanggal, kode pos, dan kode faktur semuanya terlihat sama. Anda memerlukan logika Verhoeff penuh untuk membedakannya. Regex sederhana tidak cukup.

Tinjauan PPC tahun 2024 menemukan fakta mengejutkan: 63% alat NLP generik gagal mendeteksi My Number dalam catatan berbahasa Jepang.

Lihat cara anonym.legal menangani My Number di /entities.

Tiga Sistem Tulisan Sekaligus

Bahasa Jepang menggunakan Hiragana, Katakana, dan Kanji secara bersamaan. Aksara Latin juga muncul dalam beberapa konteks. Nama yang sama mungkin terlihat berbeda di berbagai catatan. Alat yang dibuat untuk teks berbasis aksara Latin gagal pada bahasa Jepang tanpa dukungan tambahan.

Implikasi untuk deteksi nama:

  • NER bahasa Jepang membutuhkan model yang dilatih pada teks berbahasa Jepang. Gunakan spaCy ja_core_news.
  • Bahasa Jepang tidak memiliki spasi antar kata. Pemisahan kata adalah langkah tersendiri. Ini membutuhkan alat yang sadar bahasa Jepang.
  • Nama orang muncul dalam Kanji dengan panduan baca dalam Hiragana atau Katakana. Alat harus menangkap kedua bentuk tersebut.
  • Nama perusahaan (会社名, 株式会社) membutuhkan aturan khusus Jepang.

Untuk NER di berbagai bahasa APAC, lihat /docs/faq.

Format ID Jepang Lainnya

SIM: 12 digit dengan kode awalan untuk wilayah penerbitan. Kode-kode tersebut tetap — Tokyo adalah 10, Osaka adalah 62. Bagian wilayah dapat diverifikasi.

Paspor: Format ICAO standar dengan aturan penerbitan khusus Jepang.

Kartu Asuransi Kesehatan (健康保険証): Simbol (記号) ditambah nomor. Format bervariasi menurut penanggung asuransi.

Kartu Residensi (在留カード): Untuk penduduk asing. Format: dua huruf, delapan digit, dua huruf. Kementerian Kehakiman menerbitkan kartu ini.

Status Transfer Data Jepang–UE

Jepang dan UE memiliki kecukupan timbal balik sejak 2019. Data pribadi mengalir antara UE dan Jepang tanpa langkah tambahan. Jepang adalah salah satu dari sangat sedikit negara non-Eropa dengan kecukupan UE penuh.

Kesepakatan ini mencakup data pribadi standar. Data kesehatan sensitif dan riwayat kriminal memerlukan perlindungan tambahan bahkan di bawah kecukupan. Perusahaan yang memindahkan data ini harus mencatat langkah tambahan yang mereka gunakan.

Tinjau kewajiban transfer Anda di /security-compliance.

Daftar Periksa Kepatuhan Jepang

Mulai dari sini jika Anda menangani data pribadi Jepang:

  • Deteksi My Number dengan logika digit cek Verhoeff.
  • NER bahasa Jepang dengan model yang dilatih pada teks berbahasa Jepang — bukan model berbasis Latin.
  • Dukungan untuk bentuk nama Kanji, Hiragana, dan Katakana beserta varian panduan bacanya.
  • Deteksi SIM dengan pemeriksaan kode wilayah.
  • Deteksi Kartu Residensi dengan logika format Kementerian Kehakiman.
  • Deteksi Kartu Asuransi Kesehatan di berbagai varian penanggung asuransi.
  • Dasar hukum yang valid untuk setiap set data pelatihan AI yang menyimpan data pribadi.
  • Tinjauan pihak ketiga untuk data apa pun yang diklasifikasikan sebagai anonim di bawah APPI.
  • Perlindungan tambahan untuk data sensitif yang dipindahkan dalam perjanjian kecukupan UE–Jepang.

Lihat /docs/glossary untuk definisi istilah APPI yang digunakan dalam panduan ini.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.