Japan My Number: APPI at ang Verhoeff Check
Naglabas ang Personal Information Protection Commission (PPC) ng Japan ng 45 na desisyon sa pagpapatupad noong 2024. Nag-publish din ito ng unang gabay sa AI privacy ng Japan. Natuklasan ng isang pag-aaral ng PPC na 63% ng mga generic na tool ng NLP ay nabigo sa pagtuklas ng My Number (マイナンバー) sa mga file na Hapon. Kung ang inyong koponan ay humahawak ng datos ng mga residente ng Japan, nangangahulugang direktang panganib sa APPI ang agwat na iyon.
Ano ang My Number
Binibigyan ng Japan ang bawat residente ng natatanging 12-digit na identifier. Ito ang My Number, bahagi ng Individual Number System (マイナンバー制度). Sumasaklaw ito sa buwis, pensiyon, segurong pangkalusugan, at tugon sa kalamidad. Ang identifier na ito ay sensitibong datos sa ilalim ng APPI. Kailangan mo ng legal na dahilan upang mangolekta o ibahagi ito.
Ang Problema ng Verhoeff Check
Gumagamit ang My Number ng Verhoeff algorithm para sa check digit nito. Ang Verhoeff ay isang pamamaraang matematika na humuhuli ng lahat ng single-digit na error. Nakahuhuli rin ito ng lahat ng error kung saan nagpapalit ang dalawang magkadikit na digit. Kailangan nito ng tatlong lookup table upang gumana. Hindi mo ito maaaring kalkulahin nang mano-mano. Kailangan ng code.
Mahalaga ito sa dalawang dahilan. Una, ang 12-digit na format ng Japan ay mukhang maraming iba pang code. Ang mga sanggunian ng invoice, ID ng dokumento, at mga string ng petsa ay may parehong format. Nang walang Verhoeff check, mag-flag ang isang tool ng maling mga halaga. Pangalawa, karamihan sa mga tool ay hindi gumagamit ng Verhoeff. Gumagamit sila ng mas simpleng modulo-10 o modulo-11 na mga check. Hindi iyon gumagana dito.
Natuklasan ng pag-aaral ng PPC na 63% ng mga tool ay nag-skip ng check o gumagamit ng mas simpleng paraan. Ang parehong problema ay nangyayari nang sabay: mga false positive at false negative.
Ang Luhn algorithm, na ginagamit para sa mga credit card, ay mas simple. Hindi gumagamit ang My Number ng Luhn. Hindi gagana ang mga tool na itinayo para sa Luhn.
Tatlong Script, Isang Pangalan
Gumagamit ang teksto ng Hapon ng tatlong sistema ng pagsulat nang sabay. Kailangan ng tool na hawakan ang lahat ng tatlo.
Hiragana (ひらがな): Ginagamit para sa grammar at mga katutubong salita. 46 na base na character.
Katakana (カタカナ): Ginagamit para sa mga dayuhang salita at pangalan. 46 na base na character. Lumalabas ang mga dayuhang pangalan sa Japan sa script na ito.
Kanji (漢字): Mga simbolo para sa mga pangngalan at pangalan. Humigit-kumulang 2,000 ang karaniwang ginagamit.
Ang pangalan ng isang tao ay maaaring lumabas sa apat na anyo: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), at Romaji (Tanaka Taro). Kailangan ng tool na tumugma sa lahat ng apat. Kung nalaktawan nito ang isa, nalaktawan nito ang karamihan ng mga rekord ng taong iyon.
Iba Pang Mga Japanese ID na Dapat Tuklasin
Driver's license (運転免許証番号): 12 digit. Ang unang dalawang digit ay nagpapakita ng prefecture. Ang Tokyo ay 10. Ang Osaka ay 62. Nagbibigay-daan ito sa isang tool na suriin kung ang halaga ay wasto para sa rehiyong iyon.
Pasaporte (旅券番号): Dalawang titik at pitong digit. Format na ICAO. Gumagamit ang Japan ng mga tiyak na pares ng titik.
Health insurance card (健康保険証記号番号): Isang simbolo at isang numero. Ang format ay depende sa insurer. Ang National Health Insurance (国民健康保険) at Society-Managed Insurance (協会けんぽ) ay gumagamit ng iba't ibang format.
Residence card (在留カード番号): Para sa mga dayuhang residente. Dalawang titik, walong digit, dalawang titik. Inilalabas ng Ministry of Justice ang card na ito.
Panuntunan ng Anonymization ng APPI
Ang APPI ay may mahigpit na pamantayan ng anonymized data na tinatawag na anonymized information (匿名加工情報). Higit pa ito kaysa GDPR sa isang pangunahing lugar. Ang anonymization ay dapat na ma-verify ng third party at technically irreversible.
Upang sumunod, dapat gawin ng isang organisasyon ang:
- Alisin ang lahat ng direktang identifier, kasama ang My Number.
- Hawakan ang lahat ng kumbinasyon ng quasi-identifier.
- Gumamit ng k-anonymity o katulad na pamamaraan.
- Mag-publish ng pangkalahatang paglalarawan ng mga hakbang na ginawa.
- Huwag kailanman subukang muling tukuyin ang datos.
Ang gabay ng PPC sa AI noong 2024 ay nagdaragdag ng tiyak na panuntunan. Kung nagsasanay ka ng AI sa anonymized na datos, hindi mo maaaring gamitin ang modelong iyon upang muling tukuyin ang mga tao. Ito ay direktang pagbabawal sa mga pag-atake ng model inversion laban sa mga training set ng APPI.
Upang matugunan ang mga pamantayan ng PPC, kailangan mo ng apat na bagay. Una, Verhoeff validation para sa pagtuklas ng My Number. Pangalawa, Japanese NER gamit ang ja_core_news na may tamang tokenization. Pangatlo, name matching sa Kanji, Kana, at Romaji. Pang-apat, mga tseke ng prefecture code para sa mga driver's license.
Gumagamit ang India ng Aadhaar, na nangangailangan din ng Verhoeff validation. Sumasaklaw sa detalye ang gabay sa teknikal na pagsunod sa India DPDPA. Para sa multi-country identifier detection, tingnan ang pagtuklas ng EU national tax ID sa ilalim ng GDPR.