Japan PPC og APPI: Samræmi við þjálfunargögn gervigreindar
PPC Japan framfylgir APPI. Breytingar frá 2022 breyttu lögunum meira en nokkrar fyrri uppfærslur. Þær bættu við reglum um dulgerðarskráningar, milliríkjaflutninga og þjálfunargögnasöfn gervigreindar. PPC gaf út 45 úrskurði árið 2024. Sama ár birti stofnunin fyrstu gervigreindarleiðbeiningarnar um friðhelgi einkalífsins sem taka mið af Japan sérstaklega.
Ef fyrirtæki þitt þjálfar líkön á japönskum texta eða geymir gögn japansks notanda, gilda þessar reglur núna.
Hvað breytingarnar 2022 breyttu
2,4 milljónum japanskra fyrirtækja þurfti að uppfæra persónuverndarstefnur og endurskoða meðhöndlunarferli.
Dulgerðarskráningar (仮名加工情報): Ný milliflokkar. Nær yfir persónugögn þar sem bein auðkenni hafa verið fjarlægð. Endurauðkenning er enn möguleg ef lykill er til staðar. Þessar skráningar mega flytjast innan stofnunar án fulls samþykkis. Þær mega ekki fara til þriðja aðila. GDPR hefur engan slíkan flokk.
Nafnlausar skráningar (匿名加工情報): Endurauðkenning verður að vera tæknilega ómöguleg. Hæfur þriðji aðili verður að staðfesta þetta. Kröfur Japan eru strangari en GDPR að þessu leyti. GDPR gerir slíka endurskoðun valkvæða. APPI gerir hana skyldu.
Milliríkjaflutningar: Flutningur til annarra landa verður að uppfylla verndarviðmið Japan. PPC heldur lista yfir samþykkt lönd. ESB er á þeim lista.
Þjálfunargögnasöfn gervigreindar: PPC-leiðbeiningar frá 2024 fjalla beint um þetta.
- Þjálfunargögnasöfn verða að vera að fullu nafnlaus eða hvíla á gildri lagalegri heimild — venjulega samþykki.
- Undanþágan um vinnslu gildir aðeins ef líkanið getur ekki auðkennt einstaklinga útfrá úttaki sínu.
- Þróunaraðilar LLM sem þjálfa á japönskum gögnum af vefsíðum verða að sýna fram á gildar heimildir til söfnunar.
Sjá heildaryfirlit yfir skyldur vegna milliríkjasamræmis á /legal/compliance.
My Number: Þjóðarkennitala Japans
My Number (マイナンバー) er 12 stafa þjóðarkennitala. Japan gefur hana öllum íbúum. Erlendir þegnar fá hana líka. Kerfið er virkt frá 2016. Það nær yfir skatta, almannatryggingar og viðbragðsaðgerðir vegna hamfara.
Hvernig eftirlitsstafurinn virkar: My Number notar Verhoeff-aðferðina. Þetta er stærðfræðileg villuleitaraðferð. Hún er flóknari að smíða en Luhn — aðferðin sem notuð er fyrir sænska personnummer og kanadíska SIN. Flest evrópsk auðkenni nota einfaldari módular stærðfræði.
Af hverju greining er erfið: Leit að 12 stafa strengjum mun gefa ranga niðurstöðu. Dagsetningar, póstnúmer og reikningsnúmer líta öll eins út. Þú þarft alla Verhoeff-rökfræðina til að greina þau. Einföld regex dugir ekki.
Úrskurður PPC 2024 var sláandi. 63% almennra NLP-verkfæra ná ekki að greina My Number í japönskum gögnum.
Sjá hvernig anonym.legal meðhöndlar My Number á /entities.
Þrjár ritkerfi samtímis
Japanska notar Hiragana, Katakana og Kanji samtímis. Rómantískar bókstafir koma líka fyrir í ákveðnum samhengi. Sama nafnið getur litið öðruvísi út eftir gögnum. Verkfæri sem eru smíðuð fyrir latneskan texta bila á japönsku án sérstaks stuðnings.
Hvað þetta þýðir fyrir nafnagreiningu:
- Japönskur NER þarf líkön þjálfuð á japönskum texta. Nota spaCy ja_core_news.
- Japanska hefur engin bil á milli orða. Orðaklofning er sérstakt skref sem þarf japanskt verkfæri.
- Persónunöfn koma fram á Kanji með lesgreiningu á Hiragana eða Katakana. Verkfæri verða að fanga báðar myndir.
- Fyrirtækjanöfn (会社名, 株式会社) þarfnast Japan-sértækra reglna.
Sjá NER yfir APAC-tungumál á /docs/faq.
Aðrir japanskir auðkennissnið
Ökuskírteini: 12 stafir með forskeytiskóða fyrir útgáfulanda. Kóðar eru fastir — Tokyo er 10, Osaka er 62. Svæðishlutinn er hægt að staðfesta.
Vegabréf: Staðlað ICAO-snið með japönskum útgáfureglum.
Sjúkratryggingarkort (健康保険証): Tákn (記号) plús númer. Snið er mismunandi eftir tryggingafélagi.
Búsetukorðt (在留カード): Fyrir erlenda búseta. Snið: tveir bókstafir, átta tölur, tveir bókstafir. Dómsmálaráðuneyti gefur þau út.
Staðan í gagnaskiptum Japan-ESB
Japan og ESB hafa haft gagnkvæmt fullnægi frá 2019. Persónugögn flæða milli ESB og Japan án viðbótarskrefa. Japan er eitt fárra ríkja utan Evrópu með fullt ESB-fullnægi.
Samningurinn nær yfir venjuleg persónugögn. Viðkvæm heilsugögn og sakaskrárfærslur þarfnast viðbótarverndar jafnvel með fullnægi. Fyrirtæki sem flyja þessi gögn verða að skrá þær viðbótarráðstafanir sem þau nota.
Farðu yfir flutningsskyldurnar á /security-compliance.
Gátlisti yfir Japan-samræmi
Hér er gott að byrja ef þú meðhöndlar japönsk persónugögn:
- My Number-greining með Verhoeff-eftirlitsstafar-rökfræði.
- Japönskur NER með líkön þjálfuð á japönskum texta — ekki latneskar líkön.
- Stuðningur við Kanji, Hiragana og Katakana nafnmyndir og lesgreiningu.
- Ökuskírteini-greining með svæðiskóðaprófun.
- Búsetu-korta-greining með MOJ-snið-rökfræði.
- Sjúkratryggingakorts-greining yfir útgefendavíddir.
- Gild lagaleg heimild fyrir hvert þjálfunargagnasafn sem geymir persónugögn.
- Þriðja aðila endurskoðun fyrir allar skráningar flokkaðar sem nafnlausar samkvæmt APPI.
- Viðbótarvernd fyrir viðkvæmar skráningar sem fluttar eru samkvæmt ESB-Japan fullnægissamningnum.
Sjá /docs/glossary fyrir APPI-hugtakaskýringar notaðar í þessari handbók.