Personuvernd nefnd Japans (PPC) gaf út 45 framfylgni ákvarðanir árið 2024 og birtu Japans fyrstu gervigreind-sérstakar einkaverndar leiðbeiningar. PPC 2024 tæknilega mat fór að því niðurstöðu að 63% almennra NLP tóla sem dreifd eru fyrir japönskum skjöl vinnslu mistakast að greina My Number (マイナンバー) — Japans 12 stafa þjóðkennisnúmer. Fyrir stofnanir með Japans starfsemi eða gagnavinnslum japönsku þjóðborgara gera þessi bil beina APPI reglufylgni áhættu.
My Number: Verhoeff Sannprófun Áskorun
Japans Einstaklingsnúmer Kerfi (マイナンバー制度, My Number Kerfi) úthlutar einstöku 12 stafa númeri til allra íbúa Japans (1,36 milljarðar notendur). My Number er notað fyrir:
- Skattstjórnun (skattskýrslur, staðgreiðslu yfirlýsingu)
- Félagarleg trygging (lífeyrir, heilbrigðis tryggingarskrá)
- Slysaviðbrögð (auðkenning í neyðartilvikum)
Verhoeff reiknirit: My Number's stöðvunartölustafirnúmer notar Verhoeff reiknirit — hóp-fræðilegt villu greinung reiknirit sem getur greint allt staka stafa villu og allt samtengt umflutning villu. Reikniriti notar þrjár uppflettingatöflur: tvíflókin hóp margföldun tafla (D5), gagnstæða tafla, og permutation tafla.
Verhoeff útfærsla krefst að viðhalda þessum þremur töflum og beita röð uppflettinga. Ólíkt Luhn reiknirit (einföld matta reikninga), getur Verhoeff ekki verið hugarlegir reiknað — það krefst forritunarlega útfærslu.
Hvers vegna þetta skiptir máli fyrir PII greiningu:
- My Number's 12 stafa snið passar mörgum japönskum skjöl tilvísun númerum
- Án Verhoeff sannprófun, tólar mynda gríðarstóra falskar jákvæðir frá reiknings númerum, skjöl tilvísun kóðum, og dags-tíðar röð
- Tólar sem útfæra einfaldar módúlo athuganir (módúlo 10 eða 11) geta ekki sannprófað My Number og munu slappa um númer sem krefjast Verhoeff til sannprófun
PPC 2024 mat fann að 63% dreifðra tóla annað hvort mynstur-passa án sannprófun eða útfæra einfaldari módúlo ávísanir — mynda falskar jákvæðir og falskar neitir samtímis.
Japanskt skrif: Þrjú-Kerfi Áskorun
Japanskt texti notar þrjú ritkerfi samtímis:
Hiragana (ひらがな): Hljóð atkvæði stafrófið notað fyrir málfræðilegustu hluti, sagnafall endir, og innfædd japönsk orð. 46 grunn stafir.
Katakana (カタカナ): Hljóð atkvæði stafrófið notað fyrir erlend orð, tæknilegustu hugtök, og áherslur. 46 grunn stafir. Erlend nöfn á japönskri tungumáli eru venjulega skrifuð í Katakana.
Kanji (漢字): Lógogrphic stafir fengin frá kínversku, notað fyrir nafnorð, sagna stökkum, og nöfn. Japön notar um 2.000 algenga Kanji.
Japanskt nafn kóðun: Ein japönsk manneskja's nafn getur birtað sé í:
- Kanji form: 田中太郎
- Hiragana (hljóðfræðilegustu leiðbeiningar, furigana): たなかたろう
- Katakana (sem erlent efni): タナカ タロウ
- Romaji (Latín skrif): Tanaka Taro eða TANAKA Taro (fyrir alþjóðlegustu skjöl)
A PII tól verður að greina öll fjóir form af sama nafni — eða hætta á að slappa um flesta nafna atburðir í japönskum skjölum.
Japanskt Þjóðkennir Umfram My Number
Akstur leyfi númer (運転免許証番号): 12 stafir byrjar með 2 stafa sýslu kóðum (10 fyrir Tóky, 62 fyrir Ósaka, osfrv.). Sýslu kóðum virkja landfræðilegustu sannprófun akstur leyfi númer.
Japanskt vegabréf (旅券番号): Staðlað ICAO snið — 2 stafir fylgt með 7 stöfum. Japan-sérstakar stafir samsetningar fylgja útgáfu samkvæmissamhengi.
Heilbrigðis Tryggingarskrá númer (健康保険証記号番号): Tryggingi tákn + númer snið breytilegur með vátryggjanda (Japan hefur margar heilbrigðis tryggingarkerfi fyrir mismunandi atvinnu flokka). Algengu Tryggingi (国民健康保険) er ólíkt Félagarleg-stjórnað Tryggingi (協会けんぽ).
Heimilisfang Kort númer (在留カード番号): Fyrir erlenda íbúa — snið 2 stafir + 8 stafir + 2 stafir, gefin út af Dómsmála vinstersala.
APPI's Nafnlaus Upplýsingar Staðall
Japan's APPI skapar stærri nöfnun staðall en GDPR á einn sérstökum hátt: "nafnlaus upplýsingar" (匿名加工情報) staðall krefur að nafnlaus vinstersala vera þriðju-aðili sannprófuð og tæknilega óafturkræf. Stofnanir sem búa til nafnlaus gögn mengi verða að:
- Eyða eða skipta öllum beinum auðkennur (þar með talið My Number)
- Ætti til öll kvasí-auðkennir samsetningar
- Beita k-nafnlaus eða jafngildi tækni
- Birta ráðstafanir teknar (almennt lýsing, án þess að afhjúpa sérstaka útfærslu smáatriði)
- Ekki reyna að endurkenna nafnlaus gögn
PPC 2024 gervigreind leiðbeiningar bæta: stofnanir nota nafnlaus gögn mengi fyrir gervigreind þjálfa geta ekki nota gervigreind líkan til að reyna endurkenne einstakling frá þjálfa gögn — skýr bannd á líkan snúningi árásir á móti APPI-nafnlaus þjálfa mengi.
Fyrir APPI-fylgni vinnslum: My Number með Verhoeff sannprófun, japönskur tungumál NER með spaCy ja_core_news með japönskum tokenization, multi-skrif nafna greining yfir Kanji/Kana/Romaji form, og akstur leyfi sýslu kóðum sannprófun eru tæknilegustu grunnlínin fyrir PPC reglufylgni.
Heimildirnar: