Japānas My Number: APPI un Verhoeff pārbaude

Japānas Personas informācijas aizsardzības komisija (PPC) 2024. gadā izdeva 45 izpildes lēmumus. Tā arī publicēja Japānas pirmo AI privātuma vadlīniju. PPC pētījums konstatēja, ka 63% vispārīgo NLP rīku nespēj atpazīt My Number (マイナンバー) japāņu failos. Ja jūsu komanda apstrādā Japānas iedzīvotāju datus, šī nepilnība nozīmē tiešu APPI risku.

Kas ir My Number

Japāna katram iedzīvotājam piešķir unikālu 12 ciparu identifikatoru. Tas ir My Number, individuālā numura sistēmas (マイナンバー制度) daļa. Tas aptver nodokļus, pensiju, veselības apdrošināšanu un katastrofu reaģēšanu. Šis identifikators ir sensitīvi dati saskaņā ar APPI. Lai to ievāktu vai kopīgotu, jums nepieciešams juridisks pamats.

Verhoeff pārbaudes problēma

My Number izmanto Verhoeff algoritmu kontrolciparam. Verhoeff ir matemātiska metode, kas atklāj visas viena cipara kļūdas. Tā arī atklāj visas kļūdas, kur divi blakus cipari apmainās vietām. Tai nepieciešamas trīs uzmeklēšanas tabulas. To nevar aprēķināt ar rokām. Tas prasa kodu.

Tas ir svarīgi divu iemeslu dēļ. Pirmkārt, Japānas 12 ciparu formāts izskatās kā daudzi citi kodi. Rēķinu atsauces, dokumentu ID un datuma virknes — visām ir vienāds formāts. Bez Verhoeff pārbaudes rīks atzīmēs nepareizas vērtības. Otrkārt, lielākā daļa rīku neizmanto Verhoeff. Tie izmanto vienkāršākas modulo-10 vai modulo-11 pārbaudes. Tās šeit nedarbojas.

PPC pētījums konstatēja, ka 63% rīku vai nu izlaiž pārbaudi, vai izmanto vienkāršāku metodi. Abas problēmas rodas vienlaikus: viltus pozitīvi un viltus negatīvi.

Luhn algoritms, ko izmanto kredītkartēm, ir vienkāršāks. My Number neizmanto Luhn. Rīki, kas veidoti Luhn algoritma ievērošanai, šeit nedarbosies.

Trīs skripti, viens vārds

Japāņu teksts vienlaikus izmanto trīs rakstības sistēmas. Rīkam jāapstrādā visas trīs.

Hiragana (ひらがな): Lieto gramatikai un vietējiem vārdiem. 46 pamata rakstzīmes.

Katakana (カタカナ): Lieto ārvalstu vārdiem un vārdiem. 46 pamata rakstzīmes. Ārvalstu vārdi Japānā parādās šajā skriptā.

Kanji (漢字): Simboli lietvārdiem un vārdiem. Aptuveni 2000 ir plaši lietoti.

Vienas personas vārds var parādīties četrās formās: kanji (田中太郎), hiragana (たなかたろう), katakana (タナカタロウ) un romaji (Tanaka Taro). Rīkam jāatbilst visām četrām. Ja tas palaiž vienu, tas palaidīs lielāko daļu šīs personas ierakstu.

Citi japāniskie ID, kas jāatpazīst

Vadītāja apliecība (運転免許証番号): 12 cipari. Pirmie divi cipari norāda prefektūru. Tokija ir 10. Osaka ir 62. Tas ļauj rīkam pārbaudīt, vai vērtība ir derīga šim reģionam.

Pase (旅券番号): Divi burti plus septiņi cipari. ICAO formāts. Japāna izmanto specifiskus burtu pārus.

Veselības apdrošināšanas karte (健康保険証記号番号): Simbols plus numurs. Formāts ir atkarīgs no apdrošinātāja. Nacionālā veselības apdrošināšana (国民健康保険) un sabiedrības pārvaldītā apdrošināšana (協会けんぽ) izmanto atšķirīgus formātus.

Uzturēšanās karte (在留カード番号): Ārvalstu iedzīvotājiem. Divi burti, astoņi cipari, divi burti. Tieslietu ministrija izsniedz šo karti.

APPI anonimizācijas noteikums

APPI ir stingrs anonimizēto datu standarts, ko sauc par anonimizēto informāciju (匿名加工情報). Vienā galvenajā jomā tas pārsniedz VDAR. Anonimizācijai jābūt trešo pušu pārbaudāmai un tehniski neatgriezeniskai.

Lai atbilstu, organizācijai jāveic:

Noņemiet visus tiešos identifikatorus, tostarp My Number.
Apstrādājiet visas kvaziidentifikatoru kombinācijas.
Izmantojiet k-anonimitāti vai līdzīgu metodi.
Publicējiet veikto pasākumu vispārīgu aprakstu.
Nekad nemēģiniet atkārtoti identificēt datus.

PPC 2024. gada AI vadlīnijas pievieno īpašu noteikumu. Ja jūs apmācāt AI ar anonimizētiem datiem, jūs nedrīkstat izmantot šo modeli, lai identificētu cilvēkus no jauna. Tas ir tiešs aizliegums modeļu inversijas uzbrukumiem pret APPI apmācības kopām.

Lai izpildītu PPC standartus, jums nepieciešamas četras lietas. Pirmkārt, Verhoeff validācija My Number atpazīšanai. Otrkārt, japāņu NER, izmantojot ja_core_news ar pareizu tokenizāciju. Treškārt, vārdu atbilstība kanji, kana un romaji. Ceturtkārt, prefektūras koda pārbaudes vadītāja apliecībām.

Indija izmanto Aadhaar, kam arī nepieciešama Verhoeff validācija. Indijas DPDPA tehniskās atbilstības rokasgrāmata to aplūko sīkāk. Daudzvalstu identifikatoru atpazīšanu skatiet ES nacionālo nodokļu ID atpazīšana VDAR atbilstībai.

Avoti

Saistītie Raksti

GDPR un Atbilstība

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

Sākt Bezmaksas Izmēģinājumu Skatīt Funkcijas

Japānas My Number: Verhoeff un APPI

Japānas My Number: APPI un Verhoeff pārbaude

Kas ir My Number

Verhoeff pārbaudes problēma

Trīs skripti, viens vārds

Citi japāniskie ID, kas jāatpazīst

APPI anonimizācijas noteikums

Avoti

Saistītie Raksti

Pašhostēti PII rīki neiztur atbilstības auditus

Presidio palaiž garām 220+ GDPR entītijas

Konfigurācijas novirze: slēpts GDPR risks

Vai esat gatavi aizsargāt savus datus?

Japānas My Number: Verhoeff un APPI

Japānas My Number: APPI un Verhoeff pārbaude

Kas ir My Number

Verhoeff pārbaudes problēma

Trīs skripti, viens vārds

Citi japāniskie ID, kas jāatpazīst

APPI anonimizācijas noteikums

Avoti

Saistītie Raksti

Pašhostēti PII rīki neiztur atbilstības auditus

Presidio palaiž garām 220+ GDPR entītijas

Konfigurācijas novirze: slēpts GDPR risks

Vai esat gatavi aizsargāt savus datus?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow