Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Japanin PPC: My Number Verhoeff Validointi ja...

63% yleisistä työkaluista epäonnistuu My Numberin tunnistamisessa japanilaisissa asiakirjoissa.

April 21, 20268 min lukuaika
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japanin Henkilötietojen Suojakomissio (PPC) antoi 45 täytäntöönpanopäätöstä vuonna 2024 ja julkaisi Japanin ensimmäiset AI-spesifiset tietosuojan ohjeet. PPC:n vuoden 2024 tekninen arviointi havaitsi, että 63% yleisistä NLP-työkaluista, joita käytetään japanilaisten asiakirjojen käsittelyssä, epäonnistuu tarkasti tunnistamaan My Numberin (マイナンバー) — Japanin 12-numeroisen kansallisen henkilötunnuksen. Organisaatioille, joilla on toimintaa Japanissa tai jotka käsittelevät japanilaisten kansalaisten tietoja, tämä ero luo suoran APPI-yhteensopivuuden riskin.

My Number: Verhoeff Validointihaaste

Japanin Yksilönumerojärjestelmä (マイナンバー制度, My Number System) myöntää ainutlaatuisen 12-numeron jokaiselle Japanin asukkaalle (1,36 miljardia käyttäjää). My Numberia käytetään:

  • Verohallinnossa (veroilmoitukset, pidätysilmoitukset)
  • Sosiaaliturvassa (eläke, sairausvakuutuksen rekisteröinti)
  • Hätätilanteissa (tunnistus hätätilanteissa)

Verhoeff-algoritmi: My Numberin tarkistusnumero käyttää Verhoeff-algoritmia — ryhmäteoreettista virheentunnistusalgoritmia, joka voi havaita kaikki yksinumeroiset virheet ja kaikki vierekkäiset siirto-virheet. Algoritmi käyttää kolmea hakutaulukkoa: dihedral-ryhmän kertotaulukko (D5), käänteinen taulukko ja permutaatiotaulukko.

Verhoeffin toteuttaminen vaatii näiden kolmen taulukon ylläpitämistä ja hakujen sarjan soveltamista. Toisin kuin Luhn-algoritmi (yksinkertainen modulaarinen aritmetiikka), Verhoeffia ei voi laskea mielessä — se vaatii ohjelmallisen toteutuksen.

Miksi tämä on tärkeää PII-tunnistuksessa:

  • My Numberin 12-numeroinen muoto vastaa monia japanilaisia asiakirjojen viitenumeroita
  • Ilman Verhoeff-validointia työkalut tuottavat valtavasti vääriä positiivisia tuloksia laskun numeroista, asiakirjojen viitekoodista ja päivämäärä-aikasekvensseistä
  • Työkalut, jotka toteuttavat vain perusmodulaariset tarkistusnumerot (modulo 10 tai 11), eivät voi validoida My Numberia ja jättävät huomiotta numerot, jotka vaativat Verhoeffin vahvistusta

PPC:n vuoden 2024 arviointi havaitsi, että 63% käytössä olevista työkaluista joko mallit tunnistavat ilman validointia tai toteuttavat yksinkertaisempia modulaarisia tarkistuksia — tuottaen samanaikaisesti vääriä positiivisia ja vääriä negatiivisia tuloksia.

Japanilainen Kirjoitus: Kolmen Järjestelmän Haaste

Japanilainen teksti käyttää kolmea kirjoitusjärjestelmää samanaikaisesti:

Hiragana (ひらがな): Foneettinen tavujärjestelmä, jota käytetään kieliopillisten partikkeleiden, verbin taivutuspäätteiden ja alkuperäisten japanilaisten sanojen kirjoittamiseen. 46 perusmerkkiä.

Katakana (カタカナ): Foneettinen tavujärjestelmä, jota käytetään vieraskielisten sanojen, teknisten termien ja korostusten kirjoittamiseen. 46 perusmerkkiä. Vieraat nimet kirjoitetaan yleensä katakanalla.

Kanji (漢字): Logografiset merkit, jotka ovat peräisin kiinasta, käytetään substantiiveissa, verbin juurissa ja nimissä. Japanissa käytetään noin 2,000 yleistä kanjia.

Japanilainen nimen koodaus: Yhden japanilaisen henkilön nimi voi esiintyä:

  • Kanji-muodossa: 田中太郎
  • Hiraganassa (foneettinen opas, furigana): たなかたろう
  • Katakanassa (vieraan sisällön muodossa): タナカ タロウ
  • Romajissa (latinalaisessa kirjoituksessa): Tanaka Taro tai TANAKA Taro (kansainvälisissä asiakirjoissa)

PII-työkalun on tunnistettava kaikki neljä muotoa samasta nimestä — tai se riskeeraa jättävänsä huomiotta suurimman osan nimen esiintymistä japanilaisissa asiakirjoissa.

Japanilaiset Kansalliset Tunnisteet My Numberin Yli

Ajokorttinumero (運転免許証番号): 12 numeroa, jotka alkavat 2-numerolla prefektuurikoodista (10 Tokyolle, 62 Osakalle jne.). Prefektuurikoodit mahdollistavat ajokorttinumeron maantieteellisen validoinnin.

Japanin passi (旅券番号): Standardi ICAO-muoto — 2 kirjainta, jota seuraa 7 numeroa. Japanille spesifiset kirjainyhdistelmät seuraavat myöntämiskäytäntöjä.

Sairausvakuutustodistuksen numero (健康保険証記号番号): Vakuutussymboli + numero, muoto vaihtelee vakuuttajasta riippuen (Japanissa on useita sairausvakuutussuunnitelmia eri työsuhteille). Yleinen vakuutus (国民健康保険) eroaa yhdistyksen hallinnoimasta vakuutuksesta (協会けんぽ).

Oleskelukorttinumeron (在留カード番号): Ulkomaalaisille asukkaille — muoto 2 kirjainta + 8 numeroa + 2 kirjainta, myöntää Oikeusministeriö.

APPI:n Anonymisoidun Tiedon Standardi

Japanin APPI luo tiukemman anonymisointistandardin kuin GDPR yhdessä erityisessä asiassa: "anonymisoidun tiedon" (匿名加工情報) standardi vaatii, että anonymisoinnin on oltava kolmannen osapuolen vahvistettavissa ja teknisesti palautumattomissa. Organisaatioiden, jotka luovat anonymisoituja tietojoukkoja, on:

  1. Poistettava tai korvattava kaikki suorat tunnisteet (mukaan lukien My Number)
  2. Osoitettava kaikki kvasi-tunnisteyhdistelmät
  3. Sovellettava k-anonymiteettiä tai vastaavaa tekniikkaa
  4. Julkaistava toteutetut toimenpiteet (yleiskuvaus, ilman erityisten toteutustietojen paljastamista)
  5. Ei yritettävä tunnistaa anonymisoituja tietoja uudelleen

PPC:n vuoden 2024 AI-ohjeet lisäävät: organisaatioiden, jotka käyttävät anonymisoituja tietojoukkoja AI-koulutuksessa, ei voida käyttää tuloksena olevaa AI-mallia yksilöiden uudelleen tunnistamiseen koulutusdatasta — eksplisiittinen kielto mallin käänteishyökkäyksille APPI-anonymisoituja koulutusjoukkoja vastaan.

APPI-yhteensopivassa käsittelyssä: My Number Verhoeff-validoinnilla, japaninkielinen NER käyttäen spaCy ja_core_news japanilaisella tokenisoinnilla, monikirjoitusmuotojen nimen tunnistus Kanji/Kana/Romaji-muodoissa ja ajokortin prefektuurikoodin validointi ovat tekninen perusta PPC-yhteensopivuudelle.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.