Japan PPC na APPI: Uzingatiaji wa Data ya Mafunzo ya AI
PPC ya Japan inatekeleza APPI. Marekebisho ya 2022 yalibadilisha sheria zaidi ya mabadiliko yoyote ya awali. Yaliongeza kanuni za rekodi za jina la bandia, uhamisho wa data wa kimataifa, na seti za mafunzo ya AI. PPC ilitoa maamuzi 45 mwaka 2024. Pia ilichapisha mwongozo wa kwanza wa faragha wa AI maalum wa Japan mwaka huo.
Ikiwa kampuni yako inafunza mifano kwenye maandishi ya Kijapani au inashikilia rekodi za watumiaji wa Kijapani, kanuni hizi zinatumika sasa.
Marekebisho ya 2022 Yalibadilisha Nini
Makampuni milioni 2.4 ya Kijapani yalihitajika kusasisha kanuni za faragha na kurekebisha hatua za ushughulikiaji.
Taarifa zilizo na jina la bandia (仮名加工情報): Darasa jipya la kati. Linashughulikia rekodi za kibinafsi ambazo vitambulisho vya moja kwa moja vimeondolewa. Utambuzi upya bado unawezekana ukiwa na ufunguo. Rekodi hizi zinaweza kusogezwa ndani ya shirika bila idhini kamili. Haziwezi kwenda kwa watu wa tatu. GDPR haina darasa kama hilo.
Taarifa zisizo na jina (匿名加工情報): Utambuzi upya lazima usiwezekane kiteknolojia. Mtu wa tatu aliye na sifa lazima athibitishe hili. Kiwango cha Japan ni cha juu zaidi kuliko GDPR katika suala hili. GDPR inafanya mapitio hayo kuwa ya hiari. APPI inayafanya kuwa lazima.
Uhamisho wa kimataifa: Uhamisho kwa mataifa mengine lazima ukidhi kiwango cha ulinzi cha Japan. PPC inashikilia orodha ya nchi zilizoidhinishwa. EU iko kwenye orodha hiyo.
Seti za mafunzo ya AI: Mwongozo wa PPC wa 2024 ulishughulikia hili moja kwa moja.
- Seti za mafunzo lazima zisizo na jina kabisa au zitegemee msingi halali wa kisheria -- kawaida idhini.
- Kipengele cha usindikaji kinatumika tu ikiwa mfano hauwezi kutambua watu kutoka kwa matokeo yake.
- Wasanidi wa LLM wanaofunza kwenye rekodi za Kijapani zilizokusanywa kutoka kwa tovuti lazima waonyeshe msingi halali wa ukusanyaji.
Kwa mtazamo kamili wa wajibu wa usawazishaji wa kimataifa, tazama /legal/compliance.
My Number: Kitambulisho cha Taifa cha Japan
My Number (マイナンバー) ni kitambulisho cha taifa cha tarakimu 12. Japan kinatoa kwa wakazi wote. Raia wa kigeni pia wanapata kimoja. Mfumo umekuwa ukifanya kazi tangu 2016. Unashughulikia kodi, usalama wa jamii, na mwitikio wa maafa.
Jinsi tarakimu ya ukaguzi inavyofanya kazi: My Number inatumia mbinu ya Verhoeff. Ni mpango wa ukaguzi wa makosa unaotegemea hesabu. Ni mgumu zaidi kuunda kuliko Luhn -- mbinu inayotumiwa kwa personnummer ya Sweden na SIN ya Kanada. Vitambulisho vingi vya Ulaya vinatumia hisabu rahisi zaidi za kisehemu.
Kwa nini utambuzi ni mgumu: Utafutaji wa mifuatano ya tarakimu 12 utakosa lengo. Tarehe, nambari za posta, na nambari za ankara zote zinaonekana sawa. Unahitaji mantiki kamili ya Verhoeff kuzigawanya. Regex rahisi haitoshi.
Mapitio ya PPC ya 2024 yalikuwa na matokeo ya kushangaza. Asilimia 63 ya zana za jumla za NLP zishindwa kugundu My Number katika rekodi za Kijapani.
Angalia jinsi anonym.legal inavyoshughulikia My Number katika /entities.
Mifumo Mitatu ya Uandishi kwa Wakati Mmoja
Kijapani kinatumia Hiragana, Katakana, na Kanji vyote kwa wakati mmoja. Hati ya Kirumi inaonekana katika baadhi ya muktadha pia. Jina lile lile linaweza kuonekana tofauti kwenye rekodi mbalimbali. Zana zilizojengwa kwa maandishi ya herufi za Kilatini zinashindwa kwenye Kijapani bila msaada wa ziada.
Maana yake kwa utambuzi wa majina:
- NER ya Kijapani inahitaji mifano iliyofunzwa kwenye maandishi ya Kijapani. Tumia spaCy ja_core_news.
- Kijapani hakina nafasi kati ya maneno. Ugawanyaji wa maneno ni hatua yake mwenyewe. Inahitaji zana zinazojua Japan.
- Majina ya watu yanaonekana kwa Kanji pamoja na miongozo ya usomaji kwa Hiragana au Katakana. Zana lazima zishike fomu zote mbili.
- Majina ya makampuni (会社名, 株式会社) yanahitaji kanuni maalum za Japan.
Kwa NER katika lugha za APAC, tazama /docs/faq.
Miundo Mingine ya Kitambulisho cha Kijapani
Leseni ya udereva: Tarakimu 12 zenye nambari ya kiambatisho kwa mkoa wa utoaji. Nambari zimewekwa -- Tokyo ni 10, Osaka ni 62. Sehemu ya mkoa inaweza kukaguliwa.
Pasipoti: Muundo wa kawaida wa ICAO wenye kanuni maalum za utoaji za Japan.
Kadi ya Bima ya Afya (健康保険証): Ishara (記号) pamoja na nambari. Muundo unatofautiana kulingana na mtoa bima.
Kadi ya Ukaaji (在留カード): Kwa wakazi wa kigeni. Muundo: herufi mbili, tarakimu nane, herufi mbili. Wizara ya Sheria inatoa hizi.
Hali ya Uhamisho wa Data Japan-EU
Japan na EU zimekuwa na ufaafu wa pamoja tangu 2019. Rekodi za kibinafsi zinaendelea kati ya EU na Japan bila hatua za ziada. Japan ni moja ya mataifa machache yasiyo ya Ulaya yenye ufaafu kamili wa EU.
Mkataba unashughulikia rekodi za kawaida za kibinafsi. Rekodi nyeti za afya na historia ya uhalifu zinahitaji dhamana za ziada hata chini ya ufaafu. Makampuni yanayosogeza rekodi hizi lazima yandike hatua za ziada wanazotumia.
Kagua wajibu wako wa uhamisho katika /security-compliance.
Orodha Yako ya Ukaguzi wa Uzingatiaji wa Japan
Anza hapa ukishughulikia rekodi za kibinafsi za Kijapani:
- Utambuzi wa My Number kwa mantiki ya tarakimu ya ukaguzi ya Verhoeff.
- NER ya Kijapani yenye mifano iliyofunzwa kwenye maandishi ya hati za Kijapani -- si mifano ya maandishi ya Kilatini.
- Msaada wa fomu za majina za Kanji, Hiragana, na Katakana pamoja na tofauti za miongozo ya usomaji.
- Utambuzi wa leseni ya udereva wenye ukaguzi wa nambari za mkoa.
- Utambuzi wa Kadi ya Ukaaji wenye mantiki ya muundo wa MOJ.
- Utambuzi wa Kadi ya Bima ya Afya katika tofauti za watoa bima.
- Msingi halali wa kisheria kwa kila seti ya mafunzo ya AI inayoshikilia rekodi za kibinafsi.
- Mapitio ya mtu wa tatu kwa rekodi zozote zilizoorodheshwa kama zisizo na jina chini ya APPI.
- Dhamana za ziada kwa rekodi nyeti zinazosogezwa chini ya makubaliano ya ufaafu ya EU-Japan.
Tazama /docs/glossary kwa ufafanuzi wa maneno ya APPI unaotumika katika mwongozo huu.