Japan PPC at APPI: Pagsunod sa AI Training Data
Ipinapatupad ng PPC ng Japan ang APPI. Ang mga susog noong 2022 ay nagbago ng batas nang higit kaysa sa anumang nakaraang pagbabago. Nagdagdag ito ng mga panuntunan para sa pseudonymized na rekord, cross-border na paglilipat, at mga AI training set. Naglabas ang PPC ng 45 na desisyon noong 2024. Inilathala rin nito ang unang Japan-specific na gabay sa AI privacy nang taong iyon.
Kung nag-e-entrenante ang iyong kumpanya ng mga modelo sa Japanese na teksto o nagtatago ng mga rekord ng Japanese na gumagamit, naaangkop ang mga panuntunang ito ngayon.
Ano ang Binago ng mga Susog noong 2022
2.4 milyong Japanese na kumpanya ang kailangang mag-update ng mga patakaran sa privacy at baguhin ang mga hakbang sa pangangasiwa.
Pseudonymized na impormasyon (仮名加工情報): Isang bagong gitnang klase. Sinasaklaw nito ang mga personal na rekord na tinanggal na ang mga direktang identifier. Posible pa ring gawin ang re-ID kung mayroon kang susi. Maaaring ilipat ang mga rekord na ito sa loob ng isang organisasyon nang walang buong pahintulot. Hindi sila maaaring ipadala sa mga third party. Walang ganitong klase ang GDPR.
Anonymized na impormasyon (匿名加工情報): Dapat na imposible sa teknikal ang re-ID. Kailangang kumpirmahin ito ng isang kwalipikadong third party. Mas mataas ang pamantayan ng Japan kaysa sa GDPR sa puntong ito. Optional ang pagsusuring iyon sa GDPR. Kinakailangan ito ng APPI.
Cross-border na paglilipat: Dapat matugunan ng mga paglilipat sa ibang bansa ang pamantayan ng proteksyon ng Japan. Nagtatago ang PPC ng listahan ng mga aprubadong bansa. Nasa listahang iyon ang EU.
Mga AI training set: Direktang tinutugunan ng gabay ng PPC mula 2024 ang paksang ito.
- Dapat na ganap na anonymized ang mga training set o nakabatay sa wastong legal na batayan — karaniwang pahintulot.
- Naaangkop lang ang pagbubukod sa pagpoproseso kung hindi matukoy ng modelo ang mga tao mula sa mga output nito.
- Ang mga developer ng LLM na nag-eentrenante sa mga Japanese na rekord na kinuha mula sa mga website ay dapat magpakita ng wastong batayan ng koleksyon.
Para sa buong pagtingin sa mga tungkulin sa cross-border alignment, tingnan ang /legal/compliance.
My Number: Pambansang ID ng Japan
Ang My Number (マイナンバー) ay isang 12-digit na pambansang ID. Ibinibigay ito ng Japan sa lahat ng residente. Makakakuha rin ang mga dayuhang mamamayan. Tumatakbo na ang sistema mula 2016. Sinasaklaw nito ang buwis, social security, at disaster response.
Paano gumagana ang check digit: Ginagamit ng My Number ang paraan ng Verhoeff. Ito ay isang math-based na scheme ng error-check. Mas mahirap itong buuin kaysa sa Luhn — ang pamamaraan na ginagamit para sa Swedish personnummer at Canadian SIN. Karamihan sa mga European ID ay gumagamit ng mas simpleng modular na matematika.
Bakit mahirap ang pag-detect: Hindi magiging sapat ang pag-scan para sa mga 12-digit na string. Magkapareho ang hitsura ng mga petsa, postal code, at invoice code. Kailangan mo ng buong lohika ng Verhoeff para mauri ang mga ito. Hindi sapat ang simpleng regex.
Nakatago sa resulta ng pagsusuri ng PPC noong 2024 ang isang mahiwagang natuklasan. 63% ng mga generic na NLP tool ang nabigo sa pag-detect ng My Number sa mga Japanese na rekord.
Tingnan kung paano hinahawakan ng anonym.legal ang My Number sa /entities.
Tatlong Writing System nang Sabay-sabay
Gumagamit ang Japanese ng Hiragana, Katakana, at Kanji nang sabay. Lumalabas din ang Roman script sa ilang konteksto. Maaaring magmukhang iba ang parehong pangalan sa iba't ibang rekord. Nabibigo ang mga tool na ginawa para sa Latin-script na teksto sa Japanese nang walang karagdagang suporta.
Ano ang ibig sabihin nito para sa pag-detect ng pangalan:
- Kailangan ng Japanese NER ng mga modelo na sinanay sa Japanese na teksto. Gumamit ng spaCy ja_core_news.
- Walang puwang sa pagitan ng mga salita sa Japanese. Hiwalay na hakbang ang paghahati ng mga salita. Kailangan nito ng mga tool na Japan-aware.
- Lumalabas ang mga pangalan ng tao sa Kanji na may mga reading guide sa Hiragana o Katakana. Dapat mahuli ng mga tool ang parehong anyo.
- Ang mga pangalan ng kumpanya (会社名, 株式会社) ay nangangailangan ng Japan-specific na mga panuntunan.
Para sa NER sa mga wika ng APAC, tingnan ang /docs/faq.
Iba pang Japanese ID Format
Driver's license: 12 digit na may prefix code para sa rehiyon ng pagbibigay. Naayos ang mga code — ang Tokyo ay 10, ang Osaka ay 62. Masusuri ang bahagi ng rehiyon.
Passport: Karaniwang format ng ICAO na may Japan-specific na mga patakaran ng pagbibigay.
Health Insurance Card (健康保険証): Simbolo (記号) kasama ang numero. Nag-iiba ang format ayon sa insurer.
Residence Card (在留カード): Para sa mga dayuhang residente. Format: dalawang letra, walong digit, dalawang letra. Ang Ministry of Justice ang nagbibigay nito.
Katayuan ng Japan-EU Data Transfer
May mutual adequacy ang Japan at ang EU mula 2019. Dumadaloy ang mga personal na rekord sa pagitan ng EU at Japan nang walang karagdagang hakbang. Isa sa napakakaunting non-European na bansa ang Japan na may buong EU adequacy.
Sinasaklaw ng kasunduan ang mga karaniwang personal na rekord. Ang mga sensitibong rekord ng kalusugan at kasaysayan ng krimen ay nangangailangan ng karagdagang mga pag-iingat kahit sa ilalim ng adequacy. Ang mga kumpanyang naglilipat ng mga rekord na ito ay dapat mag-log ng mga karagdagang hakbang na ginagamit nila.
Suriin ang iyong mga tungkulin sa paglilipat sa /security-compliance.
Ang Iyong Japan Compliance Checklist
Magsimula dito kung nahahawakan mo ang mga Japanese na personal na rekord:
- My Number na pag-detect na may Verhoeff check-digit na lohika.
- Japanese NER na may mga modelo na sinanay sa Japanese-script na teksto — hindi mga Latin-script na modelo.
- Suporta para sa mga anyo ng pangalan sa Kanji, Hiragana, at Katakana kasama ang mga variant ng reading guide.
- Pag-detect ng driver's license na may mga tseke sa region code.
- Pag-detect ng Residence Card na may format na lohika ng MOJ.
- Pag-detect ng Health Insurance Card sa iba't ibang variant ng insurer.
- Wastong legal na batayan para sa bawat AI training set na nagtatago ng mga personal na rekord.
- Third-party na pagsusuri para sa anumang rekord na inuri bilang anonymized sa ilalim ng APPI.
- Karagdagang mga pag-iingat para sa mga sensitibong rekord na gumagalaw sa ilalim ng kasunduan ng EU-Japan adequacy.
Tingnan ang /docs/glossary para sa mga kahulugan ng termino ng APPI na ginagamit sa gabay na ito.