Japonska stevilka My Number: APPI in preverba Verhoeff
Japonska komisija za varstvo osebnih podatkov (PPC) je leta 2024 izdala 45 izvedbenih odlocb. Objavila je tudi japonska prva navodila o zasebnosti pri umetni inteligenci. Studija PPC je pokazala, da 63 % genericnih orodij NLP ne zazna stevilke My Number (マイナンバー) v japonskih datotekah. Ce vasa ekipa obravnava podatke japonskih rezidentov, ta vrzel pomeni neposredno tveganje po APPI.
Kaj je stevilka My Number
Japonska dodeli vsakemu rezidentu edinstven 12-mestni identifikator. To je My Number, del sistema individualnih stevilk (マイナンバー制度). Pokriva davke, pokojnine, zdravstveno zavarovanje in odziv na nesrece. Ta identifikator je obcutljiv podatek po APPI. Potrebujete pravni razlog za njegovo zbiranje ali skupno rabo.
Problem preverbe Verhoeff
Stevilka My Number za svojo kontrolno cifro uporablja algoritem Verhoeff. Verhoeff je matematicna metoda, ki zazna vse enociferne napake. Zazna tudi vse napake, pri katerih se dve sosednji cifri zamenjata. Za delovanje potrebuje tri iskalne tabele. Ne morete ga izracunati rocno. Zahteva kodo.
To je pomembno iz dveh razlogov. Prvic, japonski 12-mestni format je podoben mnogim drugim kodam. Referenci racunov, identifikatorji dokumentov in nizi datumov si delijo isti format. Brez preverbe Verhoeff bo orodje oznacevalo napacne vrednosti. Drugic, vecina orodij ne uporablja Verhoeff. Uporabljajo enostavnejse preverbe modulo-10 ali modulo-11. Te tu ne delujejo.
Studija PPC je pokazala, da 63 % orodij preverbo bodisi preskoci ali pa uporabi enostavnejso metodo. Oba problema se pojavljata hkrati: lazno pozitivni in lazno negativni rezultati.
Luhnov algoritem, ki se uporablja za kreditne kartice, je enostavnejsi. Stevilka My Number ne uporablja Luhn. Orodja, zgrajena za Luhn, tu ne bodo delovala.
Tri pisave, eno ime
Japonsko besedilo hkrati uporablja tri pisalne sisteme. Orodje mora obvladati vse tri.
Hiragana (ひらがな): Uporablja se za slovnico in domace besede. 46 osnovnih znakov.
Katakana (カタカナ): Uporablja se za tuje besede in imena. 46 osnovnih znakov. Tuja imena na Japonskem so v tej pisavi.
Kanji (漢字): Simboli za samostalnike in imena. Priblizno 2.000 je v splosni rabi.
Ime ene osebe se lahko pojavi v stirih oblikah: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) in Romaji (Tanaka Taro). Orodje mora ujemati vse stiri. Ce eno zamudi, zamudi vecino zapisov te osebe.
Drugi japonski ID-ji za zaznavanje
Vozniško dovoljenje (運転免許証番号): 12 cifer. Prvi dve cifri prikazujeta prefekturo. Tokio je 10. Osaka je 62. To orodju omogoca preverjanje, ali je vrednost veljavna za to obmocje.
Potni list (旅券番号): Dve crki plus sedem cifer. Format ICAO. Japonska uporablja specificne pare crk.
Kartica zdravstvenega zavarovanja (健康保険証記号番号): Simbol plus stevilka. Format je odvisen od zavarovalnice. Nacionalno zdravstveno zavarovanje (国民健康保険) in druzbeno zavarovanje (協会けんぽ) uporabljata razlicne formate.
Kartica stalnega bivalisca (在留カード番号): Za tuje rezidente. Dve crki, osem cifer, dve crki. To kartico izdaja Ministrstvo za pravosodje.
Pravilo APPI o anonimizaciji
APPI ima strog standard za anonimizacijo podatkov, imenovan anonimizirani podatki (匿名加工情報). V enem kljucnem pogledu presega GDPR. Anonimizacija mora biti preverljiva s strani tretjih oseb in tehnicno nepreklicna.
Za skladnost mora organizacija:
- Odstraniti vse neposredne identifikatorje, vkljucno s stevilko My Number.
- Obravnavati vse kombinacije kvazi-identifikatorjev.
- Uporabiti k-anonimnost ali podobno metodo.
- Objaviti splosni opis sprejetih ukrepov.
- Nikoli ne poskusati ponovno identificirati podatkov.
Smernice PPC za umetno inteligenco iz leta 2024 dodajajo specificno pravilo. Ce ucite umetno inteligenco na anonimiziranih podatkih, tega modela ne smete uporabiti za ponovno identifikacijo ljudi. To je neposredna prepoved napadov na inverzijo modela na APPI ucnih nizih.
Za izpolnitev standardov PPC potrebujete stiri stvari. Prvic, validacijo Verhoeff za zaznavanje stevilke My Number. Drugic, japonski NER z uporabo ja_core_news s pravilno tokenizacijo. Tretjic, ujemanje imen v Kanji, Kana in Romaji. Cetrtic, preverjanje kod prefektur za vozniška dovoljenja.
Indija uporablja Aadhaar, ki prav tako zahteva validacijo Verhoeff. Tehnicni vodnik za skladnost z indijskim DPDPA to podrobno pokriva. Za zaznavanje vecnacionalnih identifikatorjev glejte zaznavanje EU nacionalnih davcnih ID-jev po GDPR.