Japanin Henkilötietojen Suojakomissio (PPC) antoi 45 täytäntöönpanopäätöstä vuonna 2024 ja julkaisi Japanin ensimmäiset AI-spesifiset tietosuojan ohjeet. PPC:n vuoden 2024 tekninen arviointi havaitsi, että 63% yleisistä NLP-työkaluista, joita käytetään japanilaisten asiakirjojen käsittelyssä, epäonnistuu tarkasti tunnistamaan My Numberin (マイナンバー) — Japanin 12-numeroisen kansallisen henkilötunnuksen. Organisaatioille, joilla on toimintaa Japanissa tai jotka käsittelevät japanilaisten kansalaisten tietoja, tämä ero luo suoran APPI-yhteensopivuuden riskin.
My Number: Verhoeff Validointihaaste
Japanin Yksilönumerojärjestelmä (マイナンバー制度, My Number System) myöntää ainutlaatuisen 12-numeron jokaiselle Japanin asukkaalle (1,36 miljardia käyttäjää). My Numberia käytetään:
- Verohallinnossa (veroilmoitukset, pidätysilmoitukset)
- Sosiaaliturvassa (eläke, sairausvakuutuksen rekisteröinti)
- Hätätilanteissa (tunnistus hätätilanteissa)
Verhoeff-algoritmi: My Numberin tarkistusnumero käyttää Verhoeff-algoritmia — ryhmäteoreettista virheentunnistusalgoritmia, joka voi havaita kaikki yksinumeroiset virheet ja kaikki vierekkäiset siirto-virheet. Algoritmi käyttää kolmea hakutaulukkoa: dihedral-ryhmän kertotaulukko (D5), käänteinen taulukko ja permutaatiotaulukko.
Verhoeffin toteuttaminen vaatii näiden kolmen taulukon ylläpitämistä ja hakujen sarjan soveltamista. Toisin kuin Luhn-algoritmi (yksinkertainen modulaarinen aritmetiikka), Verhoeffia ei voi laskea mielessä — se vaatii ohjelmallisen toteutuksen.
Miksi tämä on tärkeää PII-tunnistuksessa:
- My Numberin 12-numeroinen muoto vastaa monia japanilaisia asiakirjojen viitenumeroita
- Ilman Verhoeff-validointia työkalut tuottavat valtavasti vääriä positiivisia tuloksia laskun numeroista, asiakirjojen viitekoodista ja päivämäärä-aikasekvensseistä
- Työkalut, jotka toteuttavat vain perusmodulaariset tarkistusnumerot (modulo 10 tai 11), eivät voi validoida My Numberia ja jättävät huomiotta numerot, jotka vaativat Verhoeffin vahvistusta
PPC:n vuoden 2024 arviointi havaitsi, että 63% käytössä olevista työkaluista joko mallit tunnistavat ilman validointia tai toteuttavat yksinkertaisempia modulaarisia tarkistuksia — tuottaen samanaikaisesti vääriä positiivisia ja vääriä negatiivisia tuloksia.
Japanilainen Kirjoitus: Kolmen Järjestelmän Haaste
Japanilainen teksti käyttää kolmea kirjoitusjärjestelmää samanaikaisesti:
Hiragana (ひらがな): Foneettinen tavujärjestelmä, jota käytetään kieliopillisten partikkeleiden, verbin taivutuspäätteiden ja alkuperäisten japanilaisten sanojen kirjoittamiseen. 46 perusmerkkiä.
Katakana (カタカナ): Foneettinen tavujärjestelmä, jota käytetään vieraskielisten sanojen, teknisten termien ja korostusten kirjoittamiseen. 46 perusmerkkiä. Vieraat nimet kirjoitetaan yleensä katakanalla.
Kanji (漢字): Logografiset merkit, jotka ovat peräisin kiinasta, käytetään substantiiveissa, verbin juurissa ja nimissä. Japanissa käytetään noin 2,000 yleistä kanjia.
Japanilainen nimen koodaus: Yhden japanilaisen henkilön nimi voi esiintyä:
- Kanji-muodossa: 田中太郎
- Hiraganassa (foneettinen opas, furigana): たなかたろう
- Katakanassa (vieraan sisällön muodossa): タナカ タロウ
- Romajissa (latinalaisessa kirjoituksessa): Tanaka Taro tai TANAKA Taro (kansainvälisissä asiakirjoissa)
PII-työkalun on tunnistettava kaikki neljä muotoa samasta nimestä — tai se riskeeraa jättävänsä huomiotta suurimman osan nimen esiintymistä japanilaisissa asiakirjoissa.
Japanilaiset Kansalliset Tunnisteet My Numberin Yli
Ajokorttinumero (運転免許証番号): 12 numeroa, jotka alkavat 2-numerolla prefektuurikoodista (10 Tokyolle, 62 Osakalle jne.). Prefektuurikoodit mahdollistavat ajokorttinumeron maantieteellisen validoinnin.
Japanin passi (旅券番号): Standardi ICAO-muoto — 2 kirjainta, jota seuraa 7 numeroa. Japanille spesifiset kirjainyhdistelmät seuraavat myöntämiskäytäntöjä.
Sairausvakuutustodistuksen numero (健康保険証記号番号): Vakuutussymboli + numero, muoto vaihtelee vakuuttajasta riippuen (Japanissa on useita sairausvakuutussuunnitelmia eri työsuhteille). Yleinen vakuutus (国民健康保険) eroaa yhdistyksen hallinnoimasta vakuutuksesta (協会けんぽ).
Oleskelukorttinumeron (在留カード番号): Ulkomaalaisille asukkaille — muoto 2 kirjainta + 8 numeroa + 2 kirjainta, myöntää Oikeusministeriö.
APPI:n Anonymisoidun Tiedon Standardi
Japanin APPI luo tiukemman anonymisointistandardin kuin GDPR yhdessä erityisessä asiassa: "anonymisoidun tiedon" (匿名加工情報) standardi vaatii, että anonymisoinnin on oltava kolmannen osapuolen vahvistettavissa ja teknisesti palautumattomissa. Organisaatioiden, jotka luovat anonymisoituja tietojoukkoja, on:
- Poistettava tai korvattava kaikki suorat tunnisteet (mukaan lukien My Number)
- Osoitettava kaikki kvasi-tunnisteyhdistelmät
- Sovellettava k-anonymiteettiä tai vastaavaa tekniikkaa
- Julkaistava toteutetut toimenpiteet (yleiskuvaus, ilman erityisten toteutustietojen paljastamista)
- Ei yritettävä tunnistaa anonymisoituja tietoja uudelleen
PPC:n vuoden 2024 AI-ohjeet lisäävät: organisaatioiden, jotka käyttävät anonymisoituja tietojoukkoja AI-koulutuksessa, ei voida käyttää tuloksena olevaa AI-mallia yksilöiden uudelleen tunnistamiseen koulutusdatasta — eksplisiittinen kielto mallin käänteishyökkäyksille APPI-anonymisoituja koulutusjoukkoja vastaan.
APPI-yhteensopivassa käsittelyssä: My Number Verhoeff-validoinnilla, japaninkielinen NER käyttäen spaCy ja_core_news japanilaisella tokenisoinnilla, monikirjoitusmuotojen nimen tunnistus Kanji/Kana/Romaji-muodoissa ja ajokortin prefektuurikoodin validointi ovat tekninen perusta PPC-yhteensopivuudelle.
Lähteet: