Japonske My Number: APPI a Verhoeffova kontrola
Japonska Komisia na ochranu osobnych informacii (PPC) vydala v roku 2024 az 45 vykonnych rozhodnuti. Publikovala tiez prvu japonsku smerniu pre ochranu sukromia pri pouzivani AI. Studia PPC zistila, ze 63 % generickvch nastrojov NLP zlyha pri detekcii My Number (majna nba) v japonskych suboroch. Ak vas tim spracuva udaje japonskych rezidentov, tato medzera znamena priame riziko suladnosti s APPI.
Co je My Number
Japonsko prideluje kazdemu rezidentovi jedinecny 12-ciferny identifikator. Toto je My Number, sucast systemu individualnych cisiel (My Number system). Zahrnuje dane, dochodok, zdravotne poistenie a reakciu na katastrofy. Tento identifikator je citlive udaj podla APPI. Na jeho zber alebo zdielanie potrebujete pravny dovod.
Problem s Verhoeffovou kontrolou
My Number pouziva Verhoeffov algoritmus pre svoju kontrolnu cifru. Verhoeff je matematicka metoda, ktora zachytava vsetky chyby s jednou ciflicou. Zachytava tiez vsetky chyby, kde sa dve susedne cifry prehodia. Na fungovanie potrebuje tri vyhladavacie tabulky. Nie je mozne ho vypocitat rucne. Vyzaduje si kod.
To je dolezite z dvoch dovodov. Po prve, japonsky 12-ciferny format sa podobna mnohym inym kodom. Referencie faktury, ID dokumentov a retazce datumov zdielaju rovnaky format. Bez Verhoeffovej kontroly bude nastroj oznacovat nespravne hodnoty. Po druhe, vacsina nastrojov nepouziva Verhoeff. Pouzivaju jednoduchsie kontroly modulo-10 alebo modulo-11. Tie tu nefunguju.
Studia PPC zistila, ze 63 % nastrojov bud' preskakuje kontrolu, alebo pouziva jednoduchsiu metodu. Oba problemy sa vyskytuju sucasne: false positives aj false negatives.
Luhnov algoritmus, pouzivany pre kreditne karty, je jednoduchsi. My Number nepouziva Luhn. Nastroje vytvorene pre Luhn tu nefunguju.
Tri pisma, jedno meno
Japonsky text pouziva tri pisomne systemy sucasne. Nastroj musi zvladat vsetky tri.
Hiragana: Pouzivana pre gramatiku a rodne slova. 46 zakladnych znakov.
Katakana: Pouzivana pre cudzie slova a mena. 46 zakladnych znakov. Cudzie mena v Japonsku sa objavuju v tomto pisma.
Kanji: Symboly pre podstatne mena a mena. Priblizne 2 000 je bezne pouzivanych.
Meno jednej osoby moze mat styri formy: Kanji, Hiragana, Katakana a Romaji (Tanaka Taro). Nastroj musi zhodovat vsetky styri. Ak jedna chyba, chyba vacsina zaznamov tej osoby.
Dalsie japonske ID na detekciu
Ridicsky preukaz: 12 cislic. Prve dve cifry ukazuju prefekturu. Tokio je 10. Osaka je 62. To umoznuje nastroju skontrolovat, ci je hodnota platna pre dany region.
Pas: Dve pismena plus sedem cislic. Format ICAO. Japonsko pouziva specificke pairy pismen.
Preukaz zdravotneho poistenia: Symbol plus cislo. Format zavisi od poistovatela. Narodne zdravotne poistenie a Poistenie spravovane spolecnostami pouzivaju rozne formaty.
Karta pobytu: Pre cudzich rezidentov. Dve pismena, osem cislic, dve pismena. Kartu vydava Ministerstvo spravodlivosti.
Pravidlo anonymizacie podla APPI
APPI ma prisny standard anonymizovanych udajov nazyvany anonymizovane informacie. V jednom klucovom bode ide dalej ako GDPR. Anonymizacia musi byt overitelna tretimi stranami a technicky nevratna.
Na splnenie podmienok musi organizacia:
- Odstranit vsetky priame identifikatory vratatn My Number.
- Zvladnut vsetky kombinacie kvaziidentifikatorov.
- Pouzit k-anonymitu alebo podobnu metodu.
- Zverejnit vseobecny popis prijatych krokov.
- Nikdy sa nepokusit o re-identifikaciu udajov.
Smernica PPC pre AI z roku 2024 pridava specificke pravidlo. Ak trénujete AI na anonymizovanych udajoch, nesmete tento model pouzivat na re-identifikaciu ludi. Toto je priamy zakaz utokov na invertovanie modelu voci trenovacim sadám APPI.
Na splnenie standardov PPC potrebujete styri veci. Po prve, Verhoeffova validacia pre detekciu My Number. Po druhe, japonsky NER pomocou ja_core_news so spravnou tokenizaciou. Po tretie, zhodovanie mien napriec Kanji, Kana a Romaji. Po stvarte, kontroly kodov prefektur pre ridicske preukavy.
India pouziva Aadhaar, ktory tiez vyzaduje Verhoeffovu validaciu. Technicka smernica pre suladnost s DPDPA v Indii to podrobne pokryva. Pre detekciu identifikatorov vo viacerych krajinach pozrite Detekciu narodnych danovych ID EÚ v ramci GDPR.