By · Last updated 2026-06-05

Kembali ke BlogGDPR & Pematuhan

Japan My Number: Verhoeff & APPI

63% alat generik gagal mengesan My Number dalam dokumen Jepun. My Number menggunakan algoritma Verhoeff — checksum kad pengenalan negara yang paling kompleks di Asia.

June 5, 20268 min baca
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan My Number: APPI dan Semakan Verhoeff

Komisyen Perlindungan Maklumat Peribadi Jepun (PPC) mengeluarkan 45 keputusan penguatkuasaan pada 2024. Ia juga menerbitkan panduan privasi AI pertama Jepun. Kajian PPC mendapati bahawa 63% alat NLP generik gagal mengesan My Number (マイナンバー) dalam fail Jepun. Jika pasukan anda mengendalikan data pemastautin Jepun, jurang itu bermakna risiko APPI langsung.

Apakah My Number

Jepun memberikan setiap pemastautin pengenal unik 12 digit. Ini ialah My Number, sebahagian daripada Sistem Nombor Individu (マイナンバー制度). Ia meliputi cukai, pencen, insurans kesihatan, dan tindak balas bencana. Pengenal ini merupakan data sensitif di bawah APPI. Anda memerlukan alasan undang-undang untuk mengumpul atau berkongsinya.

Masalah Semakan Verhoeff

My Number menggunakan algoritma Verhoeff untuk digit semaknya. Verhoeff ialah kaedah matematik yang menangkap semua ralat digit tunggal. Ia juga menangkap semua ralat di mana dua digit bersebelahan bertukar. Ia memerlukan tiga jadual carian untuk berfungsi. Anda tidak dapat mengiranya secara manual. Ia memerlukan kod.

Ini penting atas dua sebab. Pertama, format 12 digit Jepun kelihatan seperti banyak kod lain. Rujukan invois, ID dokumen, dan rentetan tarikh semuanya berkongsi format yang sama. Tanpa semakan Verhoeff, alat akan menandakan nilai yang salah. Kedua, kebanyakan alat tidak menggunakan Verhoeff. Mereka menggunakan semakan modulo-10 atau modulo-11 yang lebih mudah. Semakan itu tidak berfungsi di sini.

Kajian PPC mendapati bahawa 63% alat sama ada melangkau semakan atau menggunakan kaedah yang lebih mudah. Kedua-dua masalah berlaku serentak: positif palsu dan negatif palsu.

Algoritma Luhn, yang digunakan untuk kad kredit, lebih mudah. My Number tidak menggunakan Luhn. Alat yang dibina untuk Luhn tidak akan berfungsi.

Tiga Skrip, Satu Nama

Teks Jepun menggunakan tiga sistem penulisan serentak. Alat mesti mengendalikan ketiga-tiganya.

Hiragana (ひらがな): Digunakan untuk tatabahasa dan perkataan asli. 46 aksara asas.

Katakana (カタカナ): Digunakan untuk perkataan dan nama asing. 46 aksara asas. Nama asing di Jepun muncul dalam skrip ini.

Kanji (漢字): Simbol untuk kata nama dan nama. Kira-kira 2,000 dalam penggunaan biasa.

Nama seseorang boleh muncul dalam empat bentuk: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), dan Romaji (Tanaka Taro). Alat mesti memadankan keempat-empatnya. Jika ia terlepas satu, ia terlepas kebanyakan rekod orang itu.

ID Jepun Lain untuk Dikesan

Lesen memandu (運転免許証番号): 12 digit. Dua digit pertama menunjukkan wilayah. Tokyo ialah 10. Osaka ialah 62. Ini membolehkan alat menyemak sama ada nilai itu sah untuk kawasan tersebut.

Pasport (旅券番号): Dua huruf ditambah tujuh digit. Format ICAO. Jepun menggunakan pasangan huruf tertentu.

Kad insurans kesihatan (健康保険証記号番号): Simbol ditambah nombor. Format bergantung pada penanggung insurans. Insurans Kesihatan Negara (国民健康保険) dan Insurans Diuruskan Masyarakat (協会けんぽ) menggunakan format berbeza.

Kad kediaman (在留カード番号): Untuk pemastautin asing. Dua huruf, lapan digit, dua huruf. Kementerian Kehakiman mengeluarkan kad ini.

Peraturan Penganoniman APPI

APPI mempunyai piawaian data tanpa nama yang ketat yang dipanggil maklumat tanpa nama (匿名加工情報). Ia melangkaui GDPR dalam satu bidang utama. Penganoniman mesti boleh disahkan pihak ketiga dan tidak boleh diterbalikkan secara teknikal.

Untuk mematuhi, sesebuah organisasi mesti:

  1. Buang semua pengenal langsung, termasuk My Number.
  2. Kendalikan semua kombinasi kuasi-pengenal.
  3. Gunakan k-anonymity atau kaedah yang serupa.
  4. Terbitkan penerangan umum tentang langkah-langkah yang diambil.
  5. Jangan sekali-kali cuba mengenal semula data tersebut.

Panduan AI PPC 2024 menambah peraturan khusus. Jika anda melatih AI pada data tanpa nama, anda tidak boleh menggunakan model itu untuk mengenal semula orang. Ini merupakan larangan langsung terhadap serangan penyongsangan model ke atas set latihan APPI.

Untuk memenuhi piawaian PPC, anda memerlukan empat perkara. Pertama, pengesahan Verhoeff untuk pengesanan My Number. Kedua, NER Jepun menggunakan ja_core_news dengan tokenisasi yang betul. Ketiga, pemadanan nama merentasi Kanji, Kana, dan Romaji. Keempat, semakan kod wilayah untuk lesen memandu.

India menggunakan Aadhaar, yang juga memerlukan pengesahan Verhoeff. Panduan pematuhan teknikal India DPDPA merangkumi itu secara terperinci. Untuk pengesanan pengenal pelbagai negara, lihat pengesanan ID cukai negara EU di bawah GDPR.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.