Japānas My Number: APPI un Verhoeff pārbaude
Japānas Personas informācijas aizsardzības komisija (PPC) 2024. gadā izdeva 45 izpildes lēmumus. Tā arī publicēja Japānas pirmo AI privātuma vadlīniju. PPC pētījums konstatēja, ka 63% vispārīgo NLP rīku nespēj atpazīt My Number (マイナンバー) japāņu failos. Ja jūsu komanda apstrādā Japānas iedzīvotāju datus, šī nepilnība nozīmē tiešu APPI risku.
Kas ir My Number
Japāna katram iedzīvotājam piešķir unikālu 12 ciparu identifikatoru. Tas ir My Number, individuālā numura sistēmas (マイナンバー制度) daļa. Tas aptver nodokļus, pensiju, veselības apdrošināšanu un katastrofu reaģēšanu. Šis identifikators ir sensitīvi dati saskaņā ar APPI. Lai to ievāktu vai kopīgotu, jums nepieciešams juridisks pamats.
Verhoeff pārbaudes problēma
My Number izmanto Verhoeff algoritmu kontrolciparam. Verhoeff ir matemātiska metode, kas atklāj visas viena cipara kļūdas. Tā arī atklāj visas kļūdas, kur divi blakus cipari apmainās vietām. Tai nepieciešamas trīs uzmeklēšanas tabulas. To nevar aprēķināt ar rokām. Tas prasa kodu.
Tas ir svarīgi divu iemeslu dēļ. Pirmkārt, Japānas 12 ciparu formāts izskatās kā daudzi citi kodi. Rēķinu atsauces, dokumentu ID un datuma virknes — visām ir vienāds formāts. Bez Verhoeff pārbaudes rīks atzīmēs nepareizas vērtības. Otrkārt, lielākā daļa rīku neizmanto Verhoeff. Tie izmanto vienkāršākas modulo-10 vai modulo-11 pārbaudes. Tās šeit nedarbojas.
PPC pētījums konstatēja, ka 63% rīku vai nu izlaiž pārbaudi, vai izmanto vienkāršāku metodi. Abas problēmas rodas vienlaikus: viltus pozitīvi un viltus negatīvi.
Luhn algoritms, ko izmanto kredītkartēm, ir vienkāršāks. My Number neizmanto Luhn. Rīki, kas veidoti Luhn algoritma ievērošanai, šeit nedarbosies.
Trīs skripti, viens vārds
Japāņu teksts vienlaikus izmanto trīs rakstības sistēmas. Rīkam jāapstrādā visas trīs.
Hiragana (ひらがな): Lieto gramatikai un vietējiem vārdiem. 46 pamata rakstzīmes.
Katakana (カタカナ): Lieto ārvalstu vārdiem un vārdiem. 46 pamata rakstzīmes. Ārvalstu vārdi Japānā parādās šajā skriptā.
Kanji (漢字): Simboli lietvārdiem un vārdiem. Aptuveni 2000 ir plaši lietoti.
Vienas personas vārds var parādīties četrās formās: kanji (田中太郎), hiragana (たなかたろう), katakana (タナカ タロウ) un romaji (Tanaka Taro). Rīkam jāatbilst visām četrām. Ja tas palaiž vienu, tas palaidīs lielāko daļu šīs personas ierakstu.
Citi japāniskie ID, kas jāatpazīst
Vadītāja apliecība (運転免許証番号): 12 cipari. Pirmie divi cipari norāda prefektūru. Tokija ir 10. Osaka ir 62. Tas ļauj rīkam pārbaudīt, vai vērtība ir derīga šim reģionam.
Pase (旅券番号): Divi burti plus septiņi cipari. ICAO formāts. Japāna izmanto specifiskus burtu pārus.
Veselības apdrošināšanas karte (健康保険証記号番号): Simbols plus numurs. Formāts ir atkarīgs no apdrošinātāja. Nacionālā veselības apdrošināšana (国民健康保険) un sabiedrības pārvaldītā apdrošināšana (協会けんぽ) izmanto atšķirīgus formātus.
Uzturēšanās karte (在留カード番号): Ārvalstu iedzīvotājiem. Divi burti, astoņi cipari, divi burti. Tieslietu ministrija izsniedz šo karti.
APPI anonimizācijas noteikums
APPI ir stingrs anonimizēto datu standarts, ko sauc par anonimizēto informāciju (匿名加工情報). Vienā galvenajā jomā tas pārsniedz VDAR. Anonimizācijai jābūt trešo pušu pārbaudāmai un tehniski neatgriezeniskai.
Lai atbilstu, organizācijai jāveic:
- Noņemiet visus tiešos identifikatorus, tostarp My Number.
- Apstrādājiet visas kvaziidentifikatoru kombinācijas.
- Izmantojiet k-anonimitāti vai līdzīgu metodi.
- Publicējiet veikto pasākumu vispārīgu aprakstu.
- Nekad nemēģiniet atkārtoti identificēt datus.
PPC 2024. gada AI vadlīnijas pievieno īpašu noteikumu. Ja jūs apmācāt AI ar anonimizētiem datiem, jūs nedrīkstat izmantot šo modeli, lai identificētu cilvēkus no jauna. Tas ir tiešs aizliegums modeļu inversijas uzbrukumiem pret APPI apmācības kopām.
Lai izpildītu PPC standartus, jums nepieciešamas četras lietas. Pirmkārt, Verhoeff validācija My Number atpazīšanai. Otrkārt, japāņu NER, izmantojot ja_core_news ar pareizu tokenizāciju. Treškārt, vārdu atbilstība kanji, kana un romaji. Ceturtkārt, prefektūras koda pārbaudes vadītāja apliecībām.
Indija izmanto Aadhaar, kam arī nepieciešama Verhoeff validācija. Indijas DPDPA tehniskās atbilstības rokasgrāmata to aplūko sīkāk. Daudzvalstu identifikatoru atpazīšanu skatiet ES nacionālo nodokļu ID atpazīšana VDAR atbilstībai.