Japonska stevilka My Number: APPI in preverba Verhoeff

Japonska komisija za varstvo osebnih podatkov (PPC) je leta 2024 izdala 45 izvedbenih odlocb. Objavila je tudi japonska prva navodila o zasebnosti pri umetni inteligenci. Studija PPC je pokazala, da 63 % genericnih orodij NLP ne zazna stevilke My Number (マイナンバー) v japonskih datotekah. Ce vasa ekipa obravnava podatke japonskih rezidentov, ta vrzel pomeni neposredno tveganje po APPI.

Kaj je stevilka My Number

Japonska dodeli vsakemu rezidentu edinstven 12-mestni identifikator. To je My Number, del sistema individualnih stevilk (マイナンバー制度). Pokriva davke, pokojnine, zdravstveno zavarovanje in odziv na nesrece. Ta identifikator je obcutljiv podatek po APPI. Potrebujete pravni razlog za njegovo zbiranje ali skupno rabo.

Problem preverbe Verhoeff

Stevilka My Number za svojo kontrolno cifro uporablja algoritem Verhoeff. Verhoeff je matematicna metoda, ki zazna vse enociferne napake. Zazna tudi vse napake, pri katerih se dve sosednji cifri zamenjata. Za delovanje potrebuje tri iskalne tabele. Ne morete ga izracunati rocno. Zahteva kodo.

To je pomembno iz dveh razlogov. Prvic, japonski 12-mestni format je podoben mnogim drugim kodam. Referenci racunov, identifikatorji dokumentov in nizi datumov si delijo isti format. Brez preverbe Verhoeff bo orodje oznacevalo napacne vrednosti. Drugic, vecina orodij ne uporablja Verhoeff. Uporabljajo enostavnejse preverbe modulo-10 ali modulo-11. Te tu ne delujejo.

Studija PPC je pokazala, da 63 % orodij preverbo bodisi preskoci ali pa uporabi enostavnejso metodo. Oba problema se pojavljata hkrati: lazno pozitivni in lazno negativni rezultati.

Luhnov algoritem, ki se uporablja za kreditne kartice, je enostavnejsi. Stevilka My Number ne uporablja Luhn. Orodja, zgrajena za Luhn, tu ne bodo delovala.

Tri pisave, eno ime

Japonsko besedilo hkrati uporablja tri pisalne sisteme. Orodje mora obvladati vse tri.

Hiragana (ひらがな): Uporablja se za slovnico in domace besede. 46 osnovnih znakov.

Katakana (カタカナ): Uporablja se za tuje besede in imena. 46 osnovnih znakov. Tuja imena na Japonskem so v tej pisavi.

Kanji (漢字): Simboli za samostalnike in imena. Priblizno 2.000 je v splosni rabi.

Ime ene osebe se lahko pojavi v stirih oblikah: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカタロウ) in Romaji (Tanaka Taro). Orodje mora ujemati vse stiri. Ce eno zamudi, zamudi vecino zapisov te osebe.

Drugi japonski ID-ji za zaznavanje

Vozniško dovoljenje (運転免許証番号): 12 cifer. Prvi dve cifri prikazujeta prefekturo. Tokio je 10. Osaka je 62. To orodju omogoca preverjanje, ali je vrednost veljavna za to obmocje.

Potni list (旅券番号): Dve crki plus sedem cifer. Format ICAO. Japonska uporablja specificne pare crk.

Kartica zdravstvenega zavarovanja (健康保険証記号番号): Simbol plus stevilka. Format je odvisen od zavarovalnice. Nacionalno zdravstveno zavarovanje (国民健康保険) in druzbeno zavarovanje (協会けんぽ) uporabljata razlicne formate.

Kartica stalnega bivalisca (在留カード番号): Za tuje rezidente. Dve crki, osem cifer, dve crki. To kartico izdaja Ministrstvo za pravosodje.

Pravilo APPI o anonimizaciji

APPI ima strog standard za anonimizacijo podatkov, imenovan anonimizirani podatki (匿名加工情報). V enem kljucnem pogledu presega GDPR. Anonimizacija mora biti preverljiva s strani tretjih oseb in tehnicno nepreklicna.

Za skladnost mora organizacija:

Odstraniti vse neposredne identifikatorje, vkljucno s stevilko My Number.
Obravnavati vse kombinacije kvazi-identifikatorjev.
Uporabiti k-anonimnost ali podobno metodo.
Objaviti splosni opis sprejetih ukrepov.
Nikoli ne poskusati ponovno identificirati podatkov.

Smernice PPC za umetno inteligenco iz leta 2024 dodajajo specificno pravilo. Ce ucite umetno inteligenco na anonimiziranih podatkih, tega modela ne smete uporabiti za ponovno identifikacijo ljudi. To je neposredna prepoved napadov na inverzijo modela na APPI ucnih nizih.

Za izpolnitev standardov PPC potrebujete stiri stvari. Prvic, validacijo Verhoeff za zaznavanje stevilke My Number. Drugic, japonski NER z uporabo ja_core_news s pravilno tokenizacijo. Tretjic, ujemanje imen v Kanji, Kana in Romaji. Cetrtic, preverjanje kod prefektur za vozniška dovoljenja.

Indija uporablja Aadhaar, ki prav tako zahteva validacijo Verhoeff. Tehnicni vodnik za skladnost z indijskim DPDPA to podrobno pokriva. Za zaznavanje vecnacionalnih identifikatorjev glejte zaznavanje EU nacionalnih davcnih ID-jev po GDPR.

Viri

Sorodni članki

GDPR in skladnost

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

Začnite brezplačno preizkušnjo Ogled funkcij

Japonska stevilka My Number: Verhoeff in APPI

Japonska stevilka My Number: APPI in preverba Verhoeff

Kaj je stevilka My Number

Problem preverbe Verhoeff

Tri pisave, eno ime

Drugi japonski ID-ji za zaznavanje

Pravilo APPI o anonimizaciji

Viri

Sorodni članki

Lastno gostovani PII ne prestane revizij skladnosti

Presidio spregleda 220+ entitet GDPR

Zdrsel konfiguracije: Skrito tveganje GDPR

Ste pripravljeni zaščititi svoje podatke?

Japonska stevilka My Number: Verhoeff in APPI

Japonska stevilka My Number: APPI in preverba Verhoeff

Kaj je stevilka My Number

Problem preverbe Verhoeff

Tri pisave, eno ime

Drugi japonski ID-ji za zaznavanje

Pravilo APPI o anonimizaciji

Viri

Sorodni članki

Lastno gostovani PII ne prestane revizij skladnosti

Presidio spregleda 220+ entitet GDPR

Zdrsel konfiguracije: Skrito tveganje GDPR

Ste pripravljeni zaščititi svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow