By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

Japan My Number: Verhoeff at APPI

63% ng mga generic na tool ay nabigo sa pagtuklas ng My Number sa mga dokumentong Hapon. Gumagamit ang My Number ng Verhoeff algorithm — ang pinaka-kumplikadong pambansang ID checksum sa Asya.

June 5, 20268 min basahin
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan My Number: APPI at ang Verhoeff Check

Naglabas ang Personal Information Protection Commission (PPC) ng Japan ng 45 na desisyon sa pagpapatupad noong 2024. Nag-publish din ito ng unang gabay sa AI privacy ng Japan. Natuklasan ng isang pag-aaral ng PPC na 63% ng mga generic na tool ng NLP ay nabigo sa pagtuklas ng My Number (マイナンバー) sa mga file na Hapon. Kung ang inyong koponan ay humahawak ng datos ng mga residente ng Japan, nangangahulugang direktang panganib sa APPI ang agwat na iyon.

Ano ang My Number

Binibigyan ng Japan ang bawat residente ng natatanging 12-digit na identifier. Ito ang My Number, bahagi ng Individual Number System (マイナンバー制度). Sumasaklaw ito sa buwis, pensiyon, segurong pangkalusugan, at tugon sa kalamidad. Ang identifier na ito ay sensitibong datos sa ilalim ng APPI. Kailangan mo ng legal na dahilan upang mangolekta o ibahagi ito.

Ang Problema ng Verhoeff Check

Gumagamit ang My Number ng Verhoeff algorithm para sa check digit nito. Ang Verhoeff ay isang pamamaraang matematika na humuhuli ng lahat ng single-digit na error. Nakahuhuli rin ito ng lahat ng error kung saan nagpapalit ang dalawang magkadikit na digit. Kailangan nito ng tatlong lookup table upang gumana. Hindi mo ito maaaring kalkulahin nang mano-mano. Kailangan ng code.

Mahalaga ito sa dalawang dahilan. Una, ang 12-digit na format ng Japan ay mukhang maraming iba pang code. Ang mga sanggunian ng invoice, ID ng dokumento, at mga string ng petsa ay may parehong format. Nang walang Verhoeff check, mag-flag ang isang tool ng maling mga halaga. Pangalawa, karamihan sa mga tool ay hindi gumagamit ng Verhoeff. Gumagamit sila ng mas simpleng modulo-10 o modulo-11 na mga check. Hindi iyon gumagana dito.

Natuklasan ng pag-aaral ng PPC na 63% ng mga tool ay nag-skip ng check o gumagamit ng mas simpleng paraan. Ang parehong problema ay nangyayari nang sabay: mga false positive at false negative.

Ang Luhn algorithm, na ginagamit para sa mga credit card, ay mas simple. Hindi gumagamit ang My Number ng Luhn. Hindi gagana ang mga tool na itinayo para sa Luhn.

Tatlong Script, Isang Pangalan

Gumagamit ang teksto ng Hapon ng tatlong sistema ng pagsulat nang sabay. Kailangan ng tool na hawakan ang lahat ng tatlo.

Hiragana (ひらがな): Ginagamit para sa grammar at mga katutubong salita. 46 na base na character.

Katakana (カタカナ): Ginagamit para sa mga dayuhang salita at pangalan. 46 na base na character. Lumalabas ang mga dayuhang pangalan sa Japan sa script na ito.

Kanji (漢字): Mga simbolo para sa mga pangngalan at pangalan. Humigit-kumulang 2,000 ang karaniwang ginagamit.

Ang pangalan ng isang tao ay maaaring lumabas sa apat na anyo: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), at Romaji (Tanaka Taro). Kailangan ng tool na tumugma sa lahat ng apat. Kung nalaktawan nito ang isa, nalaktawan nito ang karamihan ng mga rekord ng taong iyon.

Iba Pang Mga Japanese ID na Dapat Tuklasin

Driver's license (運転免許証番号): 12 digit. Ang unang dalawang digit ay nagpapakita ng prefecture. Ang Tokyo ay 10. Ang Osaka ay 62. Nagbibigay-daan ito sa isang tool na suriin kung ang halaga ay wasto para sa rehiyong iyon.

Pasaporte (旅券番号): Dalawang titik at pitong digit. Format na ICAO. Gumagamit ang Japan ng mga tiyak na pares ng titik.

Health insurance card (健康保険証記号番号): Isang simbolo at isang numero. Ang format ay depende sa insurer. Ang National Health Insurance (国民健康保険) at Society-Managed Insurance (協会けんぽ) ay gumagamit ng iba't ibang format.

Residence card (在留カード番号): Para sa mga dayuhang residente. Dalawang titik, walong digit, dalawang titik. Inilalabas ng Ministry of Justice ang card na ito.

Panuntunan ng Anonymization ng APPI

Ang APPI ay may mahigpit na pamantayan ng anonymized data na tinatawag na anonymized information (匿名加工情報). Higit pa ito kaysa GDPR sa isang pangunahing lugar. Ang anonymization ay dapat na ma-verify ng third party at technically irreversible.

Upang sumunod, dapat gawin ng isang organisasyon ang:

  1. Alisin ang lahat ng direktang identifier, kasama ang My Number.
  2. Hawakan ang lahat ng kumbinasyon ng quasi-identifier.
  3. Gumamit ng k-anonymity o katulad na pamamaraan.
  4. Mag-publish ng pangkalahatang paglalarawan ng mga hakbang na ginawa.
  5. Huwag kailanman subukang muling tukuyin ang datos.

Ang gabay ng PPC sa AI noong 2024 ay nagdaragdag ng tiyak na panuntunan. Kung nagsasanay ka ng AI sa anonymized na datos, hindi mo maaaring gamitin ang modelong iyon upang muling tukuyin ang mga tao. Ito ay direktang pagbabawal sa mga pag-atake ng model inversion laban sa mga training set ng APPI.

Upang matugunan ang mga pamantayan ng PPC, kailangan mo ng apat na bagay. Una, Verhoeff validation para sa pagtuklas ng My Number. Pangalawa, Japanese NER gamit ang ja_core_news na may tamang tokenization. Pangatlo, name matching sa Kanji, Kana, at Romaji. Pang-apat, mga tseke ng prefecture code para sa mga driver's license.

Gumagamit ang India ng Aadhaar, na nangangailangan din ng Verhoeff validation. Sumasaklaw sa detalye ang gabay sa teknikal na pagsunod sa India DPDPA. Para sa multi-country identifier detection, tingnan ang pagtuklas ng EU national tax ID sa ilalim ng GDPR.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.