Japonijos PPC ir APPI: dirbtinio intelekto mokymo duomenų atitiktis
Japonijos PPC vykdo APPI reikalavimus. 2022 m. pakeitimai pakeitė įstatymą labiau nei bet kurie ankstesni. Jie pridėjo taisykles dėl pseudonimizuotų įrašų, tarpvalstybinių perdavimų ir DI mokymo rinkinių. PPC 2024 m. priėmė 45 sprendimus. Tais metais ji taip pat paskelbė pirmąjį Japonijai skirtą DI privatumo vadovą.
Jei jūsų įmonė moko modelius su japonų tekstu arba saugo japonų naudotojų įrašus, šios taisyklės galioja jau dabar.
Ką pakeitė 2022 m. pakeitimai
2,4 milijono Japonijos įmonių turėjo atnaujinti privatumo taisykles ir pakeisti tvarkymo procedūras.
Pseudonimizuota informacija (仮名加工情報): Nauja vidurinė kategorija. Ji apima asmeninius įrašus, iš kurių pašalinti tiesioginiai identifikatoriai. Pakartotinis identifikavimas vis dar įmanomas, jei turite raktą. Šie įrašai gali judėti organizacijos viduje be visiško sutikimo. Jie negali būti perduoti trečiosioms šalims. BDAR tokios kategorijos neturi.
Anonimizuota informacija (匿名加工情報): Pakartotinis identifikavimas turi būti techniškai neįmanomas. Tai turi patvirtinti kvalifikuota trečioji šalis. Japonijos baras yra aukštesnis nei BDAR šiuo klausimu. BDAR tokią peržiūrą daro neprivalomą. APPI ją daro privalomą.
Tarpvalstybiniai perdavimai: Perdavimai į kitas šalis turi atitikti Japonijos apsaugos standartą. PPC tvarko patvirtintų šalių sąrašą. ES yra tame sąraše.
DI mokymo rinkiniai: PPC 2024 m. gairės tiesiogiai apėmė šią sritį.
- Mokymo rinkiniai turi būti visiškai anonimizuoti arba remtis tinkamu teisiniu pagrindu - paprastai sutikimu.
- Apdorojimo išimtis taikoma tik tada, kai modelis negali identifikuoti asmenų iš savo rezultatų.
- LLM kūrėjai, mokantys modelius su iš svetainių nuskaitytais japonų įrašais, turi pademonstruoti tinkamą rinkimo pagrindą.
Visapusiškam tarpvalstybinių atitikties pareigų vaizdui žr. /legal/compliance.
My Number: Japonijos nacionalinis ID
My Number (マイナンバー) yra 12 skaitmenų nacionalinis ID. Japonija jį išduoda visiems gyventojams. Užsienio piliečiai taip pat jį gauna. Sistema veikia nuo 2016 m. Ji apima mokesčius, socialinę apsaugą ir reagavimą į nelaimes.
Kaip veikia tikrinimo skaitmuo: My Number naudoja Verhoeff metodą. Tai matematine grįsta klaidų tikrinimo schema. Ji sunkiau kuriama nei Luhn - metodas, naudojamas Švedijos personnummer ir Kanados SIN. Dauguma Europos ID naudoja paprastesnę modulinę matematiką.
Kodėl aptikimas yra sunkus: 12 skaitmenų eilučių paieška nepasiekia tikslo. Datos, pašto kodai ir sąskaitų faktūrų kodai atrodo vienodai. Reikia visos Verhoeff logikos, kad juos išskirtumėte. Paprastas regex nepakankamas.
PPC 2024 m. peržiūra turėjo ryškų atradimą. 63 % bendrųjų NLP įrankių neaptinka My Number japonų įrašuose.
Sužinokite, kaip anonym.legal tvarko My Number adresu /entities.
Trys rašymo sistemos vienu metu
Japonų kalba naudoja Hiragana, Katakana ir Kanji vienu metu. Romėniška raštija kai kuriuose kontekstuose taip pat pasirodo. To paties vardo rašyba gali skirtis skirtinguose įrašuose. Lotynų rašmenims skirti įrankiai nepavyksta su japonų kalba be papildomos paramos.
Ką tai reiškia vardų aptikimui:
- Japonų NER reikia modelių, apmokytų su japonų tekstu. Naudokite spaCy ja_core_news.
- Japonų kalboje tarp žodžių nėra tarpų. Žodžių skaidymas yra atskiras žingsnis. Jam reikia Japonijai pritaikytų įrankių.
- Asmenų vardai rodomi Kanji su skaitymo nuorodomis Hiragana arba Katakana. Įrankiai turi fiksuoti abi formas.
- Įmonių pavadinimai (会社名, 株式会社) reikalauja Japonijai specifinių taisyklių.
NER skirtingoms APAC kalboms žr. /docs/faq.
Kiti Japonijos ID formatai
Vairuotojo pažymėjimas: 12 skaitmenų su priešdėlio kodu išdavimo regionui. Kodai yra fiksuoti - Tokijas yra 10, Osaka yra 62. Regiono dalį galima patikrinti.
Pasas: Standartinis ICAO formatas su Japonijai specifinėmis išdavimo taisyklėmis.
Sveikatos draudimo kortelė (健康保険証): Simbolis (記号) ir numeris. Formatas skiriasi priklausomai nuo draudiko.
Gyventojo kortelė (在留カード): Užsienio gyventojams. Formatas: dvi raidės, aštuoni skaitmenys, dvi raidės. Jas išduoda Teisingumo ministerija.
Japonijos ir ES duomenų perdavimo statusas
Japonija ir ES turi abipusį tinkamumą nuo 2019 m. Asmeniniai įrašai juda tarp ES ir Japonijos be papildomų žingsnių. Japonija yra viena iš labai nedaugelio ne Europos šalių, turinčių visišką ES tinkamumą.
Susitarimas apima standartinius asmeninius įrašus. Jautriems sveikatos ir baudžiamosios istorijos įrašams reikia papildomų apsaugos priemonių net esant tinkamumui. Įmonės, perduodančios šiuos įrašus, turi užregistruoti papildomus naudojamus žingsnius.
Patikrinkite savo perdavimo pareigas adresu /security-compliance.
Japonijos atitikties kontrolinis sąrašas
Pradėkite čia, jei tvarkote japonų asmeninius įrašus:
- My Number aptikimas su Verhoeff tikrinimo skaitmens logika.
- Japonų NER su modeliais, apmokytais su japonų rašto tekstu - ne lotynų rašto modeliais.
- Kanji, Hiragana ir Katakana vardų formų ir skaitymo nurodymų variantų palaikymas.
- Vairuotojo pažymėjimo aptikimas su regiono kodo tikrinimais.
- Gyventojo kortelės aptikimas su Teisingumo ministerijos formato logika.
- Sveikatos draudimo kortelės aptikimas visų draudikų variantuose.
- Tinkamas teisinis pagrindas kiekvienam DI mokymo rinkiniui, kuriame yra asmeninių įrašų.
- Trečiosios šalies peržiūra visiems įrašams, klasifikuotiems kaip anonimizuoti pagal APPI.
- Papildomos apsaugos priemonės jautriems įrašams, judantiems pagal ES ir Japonijos tinkamumo susitarimą.
Žr. /docs/glossary APPI terminų apibrėžimų, naudojamų šiame vadove.