Japán My Number: Verhoeff-algoritmus és APPI megfelelés
A japán Személyes Adatvédelmi Bizottság (PPC) 2024-ben 45 végrehajtási határozatot hozott, és közzétette Japán első, AI-specifikus adatvédelmi útmutatóját. A PPC 2024-es műszaki értékelése szerint a japán dokumentumfeldolgozáshoz telepített generikus NLP-eszközök 63%-a nem képes pontosan felismerni a My Numbert (マイナンバー) — Japán 12 jegyű nemzeti azonosítóját. A japán tevékenységet folytató vagy japán állampolgárok adatait kezelő szervezetek számára ez a hiányosság közvetlen APPI-megfelelési kockázatot jelent.
My Number: A Verhoeff-validálás kihívása
Japán egyéni azonosítószám-rendszere (マイナンバー制度) minden japán lakos számára egyedi 12 jegyű számot rendel hozzá. A My Number felhasználási területei:
- Adóigazgatás (adóbevallások, forrásbevonási nyilatkozatok)
- Társadalombiztosítás (nyugdíj, egészségbiztosítás-regisztráció)
- Katasztrófa-elhárítás (azonosítás vészhelyzetekben)
Verhoeff-algoritmus: A My Number ellenőrző számjegye a Verhoeff-algoritmust alkalmazza — ez egy csoportelméleti hibaészlelő algoritmus, amely képes felismerni minden egyjegyű hibát és minden szomszédos csere-hibát. Az algoritmus három keresési táblát használ: egy diédrális csoport szorzótáblát (D5), egy inverz táblát és egy permutációs táblát.
A Verhoeff-implementáció megköveteli e három tábla karbantartását és egy keresési sorozat alkalmazását. A Luhn-algoritmussal (egyszerű moduláris aritmetika) ellentétben a Verhoeff nem számítható fejben — programozott implementációt igényel.
Ez miért fontos a PII-felismerés szempontjából:
- A My Number 12 jegyű formátuma sok japán dokumentumban szereplő hivatkozási számra hasonlít
- Verhoeff-validálás nélkül az eszközök tömeges téves találatokat generálnak számlaszámokból, dokumentum-hivatkozási kódokból és dátum-idő sorozatokból
- A csupán egyszerű moduláris ellenőrző számjegyeket (modulo 10 vagy 11) implementáló eszközök nem tudják validálni a My Numbert
A PPC 2024-es értékelése szerint a telepített eszközök 63%-a vagy mintaillesztést végez validálás nélkül, vagy egyszerűbb moduláris ellenőrzést implementál — így egyidejűleg téves találatokat és kihagyott találatokat produkál.
Japán írásrendszerek: a háromrendszerű kihívás
A japán szöveg három írásrendszert alkalmaz egyidejűleg.
Hiragana (ひらがな): Fonetikus szótagírás, amelyet grammatikai partikulákhoz, igeragozási végződésekhez és natív japán szavakhoz használnak. 46 alapkarakter.
Katakana (カタカナ): Fonetikus szótagírás, amelyet idegen szavakhoz, műszaki terminusokhoz és kiemeléshez alkalmaznak. 46 alapkarakter. A japánban írt külföldi nevek általában katakanában jelennek meg.
Kandzsik (漢字): Kínai eredetü logografikus karakterek, amelyeket főnevekhez, igetövekhez és nevekhez használnak. A japán körülbelül 2 000 általánosan használt kandzsiból áll.
Japán névkódolás: Egyazon japán személy neve a következő formákban jelenhet meg:
- Kandzsiban: 田中太郎
- Hiraganában (fonetikus segédlet, furigana): たなかたろう
- Katakanában (idegen tartalomként): タナカ タロウ
- Rōmajiban (latin betűkkel): Tanaka Taro vagy TANAKA Taro (nemzetközi dokumentumokhoz)
Egy PII-eszköznek egyazon név mind a négy alakját fel kell ismernie — különben a japán dokumentumokban előforduló nevek többségét elszalasztja.
Japán nemzeti azonosítók a My Numberen túl
Jogosítvány száma (運転免許証番号): 12 számjegy, amelynek első 2 jegye a tartomány kódja (Tokió esetén 10, Osaka esetén 62 stb.). A tartománykód lehetővé teszi a jogosítvány szám földrajzi validálását.
Japán útlevél (旅券番号): Szabványos ICAO-formátum — 2 betű, majd 7 számjegy. A japán betűkombinációk kibocsátási konvenciókat követnek.
Egészségbiztosítási igazolvány száma (健康保険証記号番号): A biztosítói szimbólum + szám formátum biztosítónként eltér (Japánban több egészségbiztosítási rendszer létezik a különböző foglalkoztatási kategóriákhoz). A közösségi biztosítás (国民健康保険) eltér a társadalmilag kezelt biztosítástól (協会けんぽ).
Tartózkodási kártya száma (在留カード番号): Külföldi lakók számára — formátum: 2 betű + 8 számjegy + 2 betű, amelyet az Igazságügyi Minisztérium állít ki.
Az APPI anonimizálási szabványa
Japán APPI-ja egy meghatározott területen szigorúbb anonimizálási szabványt ír elő a GDPR-nál: az „anonimizált információ” (匿名加工情報) szabvány megköveteli, hogy az anonimizálás harmadik fél által ellenőrizhető és technikailag visszafordíthatatlan legyen. Az anonimizált adathalmazokat létrehozó szervezeteknek:
- Törölni vagy cserélni kell minden közvetlen azonosítót (beleértve a My Numbert)
- Kezelni kell minden kvázi-azonosítókombinációt
- K-anonimitást vagy azzal egyenértékű technikát kell alkalmazni
- Közzé kell tenni az alkalmazott intézkedéseket (általános leírásban, a konkrét implementációs részletek feltárása nélkül)
- Nem kísérelhetik meg az anonimizált adatok visszaazonosítását
A PPC 2024-es AI-útmutatója hozzáteszi: az APPI-nak megfelelően anonimizált képzési adathalmazokat felhasználó AI-rendszerek nem alkalmazhatók a képzési adatok egyéneinek visszaazonosítási kísérletére — ez explicit tiltás a modell-inverzió ellen az APPI-kompatibilis képzési adathalmazok vonatkozásában.
Az APPI-kompatibilis feldolgozáshoz műszaki alapkövetelmény: My Number felismerés Verhoeff-validálással, japán nyelvű NER a spaCy ja_core_news modell és japán tokenizálás segítségével, többírású névfelismerés kandzsiban, kanában és rōmajiban, valamint jogosítvány tartomány-kód validálás.