By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

My Number Jepang: Verhoeff & APPI

63% alat generik gagal mendeteksi My Number dalam dokumen berbahasa Jepang. My Number menggunakan algoritma Verhoeff — checksum KTP nasional paling kompleks di Asia.

June 5, 20268 menit baca
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

My Number Jepang: APPI dan Cek Verhoeff

Komisi Perlindungan Informasi Pribadi Jepang (PPC) mengeluarkan 45 keputusan penegakan pada 2024. PPC juga menerbitkan panduan privasi AI pertama Jepang. Sebuah studi PPC menemukan bahwa 63% alat NLP generik gagal mendeteksi My Number (マイナンバー) dalam file berbahasa Jepang. Jika tim Anda menangani data penduduk Jepang, celah tersebut berarti risiko APPI langsung.

Apa Itu My Number

Jepang memberikan setiap penduduk pengenal unik 12 digit. Ini adalah My Number, bagian dari Sistem Nomor Individu (マイナンバー制度). Mencakup pajak, pensiun, asuransi kesehatan, dan respons bencana. Pengenal ini adalah data sensitif di bawah APPI. Anda memerlukan alasan hukum untuk mengumpulkan atau membagikannya.

Masalah Cek Verhoeff

My Number menggunakan algoritma Verhoeff untuk digit ceknya. Verhoeff adalah metode matematika yang menangkap semua kesalahan satu digit. Ini juga menangkap semua kesalahan di mana dua digit yang berdekatan tertukar. Ini memerlukan tiga tabel pencarian untuk bekerja. Anda tidak dapat menghitungnya secara manual. Ini memerlukan kode.

Ini penting karena dua alasan. Pertama, format 12 digit Jepang mirip dengan banyak kode lain. Referensi faktur, ID dokumen, dan string tanggal semuanya berbagi format yang sama. Tanpa cek Verhoeff, alat akan menandai nilai yang salah. Kedua, sebagian besar alat tidak menggunakan Verhoeff. Mereka menggunakan cek modulo-10 atau modulo-11 yang lebih sederhana. Itu tidak bekerja di sini.

Studi PPC menemukan bahwa 63% alat melewati cek atau menggunakan metode yang lebih sederhana. Kedua masalah terjadi sekaligus: positif palsu dan negatif palsu.

Algoritma Luhn, yang digunakan untuk kartu kredit, lebih sederhana. My Number tidak menggunakan Luhn. Alat yang dibangun untuk Luhn tidak akan berfungsi.

Tiga Skrip, Satu Nama

Teks Jepang menggunakan tiga sistem penulisan sekaligus. Alat harus menangani ketiganya.

Hiragana (ひらがな): Digunakan untuk tata bahasa dan kata-kata asli. 46 karakter dasar.

Katakana (カタカナ): Digunakan untuk kata-kata asing dan nama. 46 karakter dasar. Nama asing di Jepang muncul dalam skrip ini.

Kanji (漢字): Simbol untuk kata benda dan nama. Sekitar 2.000 digunakan secara umum.

Nama satu orang dapat muncul dalam empat bentuk: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), dan Romaji (Tanaka Taro). Alat harus mencocokkan keempatnya. Jika melewatkan satu, sebagian besar catatan orang itu terlewatkan.

ID Jepang Lain yang Perlu Dideteksi

SIM (運転免許証番号): 12 digit. Dua digit pertama menunjukkan prefektur. Tokyo adalah 10. Osaka adalah 62. Ini memungkinkan alat memeriksa apakah nilai valid untuk wilayah tersebut.

Paspor (旅券番号): Dua huruf ditambah tujuh digit. Format ICAO. Jepang menggunakan pasangan huruf tertentu.

Kartu asuransi kesehatan (健康保険証記号番号): Simbol ditambah nomor. Formatnya tergantung pada penanggung. Asuransi Kesehatan Nasional (国民健康保険) dan Asuransi yang Dikelola Masyarakat (協会けんぽ) menggunakan format berbeda.

Kartu residensi (在留カード番号): Untuk penduduk asing. Dua huruf, delapan digit, dua huruf. Kementerian Kehakiman menerbitkan kartu ini.

Aturan Anonimisasi APPI

APPI memiliki standar data yang dianonimkan yang ketat yang disebut informasi yang dianonimkan (匿名加工情報). Ini lebih jauh dari GDPR dalam satu area utama. Anonimisasi harus dapat diverifikasi pihak ketiga dan tidak dapat dibalik secara teknis.

Untuk mematuhi, organisasi harus:

  1. Menghapus semua pengidentifikasi langsung, termasuk My Number.
  2. Menangani semua kombinasi kuasi-pengidentifikasi.
  3. Menggunakan k-anonimitas atau metode serupa.
  4. Menerbitkan deskripsi umum langkah-langkah yang diambil.
  5. Tidak pernah mencoba mengidentifikasi ulang data.

Panduan AI PPC 2024 menambahkan aturan khusus. Jika Anda melatih AI pada data yang dianonimkan, Anda tidak dapat menggunakan model itu untuk mengidentifikasi ulang orang. Ini adalah larangan langsung terhadap serangan inversi model terhadap set pelatihan APPI.

Untuk memenuhi standar PPC, Anda memerlukan empat hal. Pertama, validasi Verhoeff untuk deteksi My Number. Kedua, NER Jepang menggunakan ja_core_news dengan tokenisasi yang tepat. Ketiga, pencocokan nama di seluruh Kanji, Kana, dan Romaji. Keempat, pemeriksaan kode prefektur untuk SIM.

India menggunakan Aadhaar, yang juga memerlukan validasi Verhoeff. Panduan kepatuhan teknis DPDPA India mencakup hal itu secara terperinci. Untuk deteksi pengidentifikasi multi-negara, lihat deteksi NPWP nasional EU di bawah GDPR.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.