By · Last updated 2026-06-05

Kembali ke BlogGDPR & Pematuhan

PPC Jepun APPI: Pematuhan Data Latihan AI

PPC Jepun menguatkuasakan pindaan APPI 2022 yang meliputi 2.4 juta perusahaan Jepun. ID nombor 12 digit My Number memerlukan pengesahan Verhoeff.

June 5, 202610 min baca
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

PPC Jepun dan APPI: Pematuhan Data Latihan AI

PPC Jepun menguatkuasakan APPI. Pindaan 2022 mengubah undang-undang ini lebih banyak daripada sebarang kemas kini sebelumnya. Ia menambah peraturan untuk rekod yang dipseudonymkan, pemindahan rentas sempadan, dan set latihan AI. PPC mengeluarkan 45 keputusan pada tahun 2024. Ia juga menerbitkan panduan privasi AI khusus Jepun pertama pada tahun tersebut.

Jika firma anda melatih model pada teks Jepun atau menyimpan rekod pengguna Jepun, peraturan ini berkuat kuasa sekarang.

Apa yang Berubah dengan Pindaan 2022

2.4 juta firma Jepun terpaksa mengemas kini peraturan privasi dan mengubah semula langkah pengendalian.

Maklumat yang dipseudonymkan (仮名加工情報): Kelas tengah yang baharu. Ia meliputi rekod peribadi dengan pengecam langsung yang dikeluarkan. Pengecaman semula masih mungkin jika anda mempunyai kunci. Rekod ini boleh bergerak dalam organisasi tanpa persetujuan penuh. Ia tidak boleh diberikan kepada pihak ketiga. GDPR tidak mempunyai kelas sedemikian.

Maklumat tanpa nama (匿名加工情報): Pengecaman semula mesti mustahil secara teknikal. Pihak ketiga yang berkelayakan mesti mengesahkannya. Piawaian Jepun lebih tinggi daripada GDPR pada perkara ini. GDPR menjadikan semakan tersebut pilihan. APPI menjadikannya wajib.

Pemindahan rentas sempadan: Pemindahan ke negara lain mesti memenuhi piawaian perlindungan Jepun. PPC menyimpan senarai negara yang diluluskan. EU terdapat dalam senarai tersebut.

Set latihan AI: Panduan PPC dari 2024 meliputi perkara ini secara langsung.

  • Set latihan mesti ditanpa-namakan sepenuhnya atau berdasarkan asas undang-undang yang sah — biasanya persetujuan.
  • Pengecualian pemprosesan hanya terpakai jika model tidak dapat mengenal pasti orang daripada outputnya.
  • Pembangun LLM yang melatih pada rekod Jepun yang diambil dari laman web mesti menunjukkan asas pengumpulan yang sah.

Untuk paparan penuh tentang tugas penjajaran rentas sempadan, lihat /legal/compliance.

My Number: ID Kebangsaan Jepun

My Number (マイナンバー) ialah ID kebangsaan 12 digit. Jepun mengeluarkannya kepada semua penduduk. Warganegara asing juga mendapatnya. Sistem ini beroperasi sejak 2016. Ia meliputi cukai, keselamatan sosial, dan tindak balas bencana.

Cara digit semak berfungsi: My Number menggunakan kaedah Verhoeff. Ia adalah skim semakan ralat berasaskan matematik. Ia lebih sukar untuk dibina daripada Luhn — kaedah yang digunakan untuk personnummer Sweden dan SIN Kanada. Kebanyakan ID Eropah menggunakan matematik modular yang lebih mudah.

Mengapa pengesanan sukar: Imbasan untuk rentetan 12 digit akan terlepas sasaran. Tarikh, kod pos, dan kod invois semuanya kelihatan sama. Anda memerlukan logik Verhoeff penuh untuk memisahkannya. Ungkapan biasa yang mudah tidak mencukupi.

Semakan PPC 2024 mempunyai penemuan yang ketara. 63% alat NLP generik gagal mengesan My Number dalam rekod Jepun.

Lihat cara anonym.legal mengendalikan My Number di /entities.

Tiga Sistem Penulisan Serentak

Bahasa Jepun menggunakan Hiragana, Katakana, dan Kanji serentak. Skrip Roman muncul dalam beberapa konteks juga. Nama yang sama mungkin kelihatan berbeza merentasi rekod. Alat yang dibina untuk teks skrip Latin gagal pada bahasa Jepun tanpa sokongan tambahan.

Maksud ini untuk pengesanan nama:

  • NER Jepun memerlukan model yang dilatih pada teks Jepun. Gunakan spaCy ja_core_news.
  • Bahasa Jepun tidak mempunyai ruang antara perkataan. Pemisahan perkataan adalah langkah tersendiri. Ia memerlukan alat yang sedar Jepun.
  • Nama seseorang muncul dalam Kanji dengan panduan bacaan dalam Hiragana atau Katakana. Alat mesti menangkap kedua-dua bentuk.
  • Nama syarikat (会社名, 株式会社) memerlukan peraturan khusus Jepun.

Untuk NER merentasi bahasa APAC, lihat /docs/faq.

Format ID Jepun Lain

Lesen memandu: 12 digit dengan kod awalan untuk rantau keluaran. Kod adalah tetap — Tokyo ialah 10, Osaka ialah 62. Bahagian rantau boleh disemak.

Pasport: Format ICAO standard dengan peraturan keluaran khusus Jepun.

Kad Insurans Kesihatan (健康保険証): Simbol (記号) tambah nombor. Format berbeza mengikut penanggung insurans.

Kad Kediaman (在留カード): Untuk penduduk asing. Format: dua huruf, lapan digit, dua huruf. Kementerian Kehakiman mengeluarkan ini.

Status Pemindahan Data Jepun-EU

Jepun dan EU mempunyai kecukupan bersama sejak 2019. Rekod peribadi mengalir antara EU dan Jepun tanpa langkah tambahan. Jepun adalah salah satu daripada sangat sedikit negara bukan Eropah dengan kecukupan EU penuh.

Perjanjian itu meliputi rekod peribadi standard. Rekod kesihatan dan sejarah jenayah yang sensitif memerlukan perlindungan tambahan walaupun di bawah kecukupan. Firma yang memindahkan rekod ini mesti mencatat langkah tambahan yang mereka gunakan.

Semak tugas pemindahan anda di /security-compliance.

Senarai Semak Pematuhan Jepun Anda

Mula di sini jika anda mengendalikan rekod peribadi Jepun:

  • Pengesanan My Number dengan logik digit semak Verhoeff.
  • NER Jepun dengan model yang dilatih pada teks skrip Jepun — bukan model skrip Latin.
  • Sokongan untuk bentuk nama Kanji, Hiragana, dan Katakana serta varian panduan bacaan.
  • Pengesanan lesen memandu dengan semakan kod rantau.
  • Pengesanan Kad Kediaman dengan logik format MOJ.
  • Pengesanan Kad Insurans Kesihatan merentasi varian penanggung insurans.
  • Asas undang-undang yang sah untuk setiap set latihan AI yang menyimpan rekod peribadi.
  • Semakan pihak ketiga untuk sebarang rekod yang diklasifikasikan sebagai tanpa nama di bawah APPI.
  • Perlindungan tambahan untuk rekod sensitif yang bergerak di bawah perjanjian kecukupan EU-Jepun.

Lihat /docs/glossary untuk definisi istilah APPI yang digunakan dalam panduan ini.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.