Japan My Number: APPI i Verhoeffova provjera
Japansko Povjerenstvo za zastitu osobnih podataka (PPC) izdalo je 45 provedbenih odluka u 2024. godini. Takodjer je objavilo japanske prve smjernice o privatnosti i umjetnoj inteligenciji. PPC studija pokazala je da 63% generickh NLP alata ne prepoznaje My Number (majanamba) u japanskim datotekama. Ako vas tim obradjuje podatke japanskih rezidenata, ta praznina znaci izravan rizik prema APPI-ju.
Sto je My Number
Japan svakome rezidentu dodjeljuje jedinstveni 12-znamenkasti identifikator. To je My Number, dio Sustava individualnih brojeva (majanamba seido). Pokriva poreze, mirovine, zdravstveno osiguranje i odgovor na katastrofe. Ovaj identifikator je osjetljivi podatak prema APPI-ju. Potreban vam je pravni razlog za njegovo prikupljanje ili dijeljenje.
Problem Verhoeffove provjere
My Number koristi Verhoeff algoritam za kontrolnu znamenku. Verhoeff je matematicka metoda koja hvata sve jednoznamenkaste pogreske. Takodjer hvata sve pogreske gdje se zamijene dvije susjedne znamenke. Za rad su mu potrebne tri tablice pretrago. Ne moze se izracunati rucno. Zahtijeva kod.
Ovo je vazno iz dva razloga. Prvo, japanski 12-znamenkasti format nalikuje mnogim drugim kodovima. Reference racuna, identifikatori dokumenata i nizovi datuma dijele isti format. Bez Verhoeffove provjere, alat ce oznacavati pogresne vrijednosti. Drugo, vecina alata ne koristi Verhoeff. Koriste jednostavnijre provjere modulo-10 ili modulo-11. Ove ne rade ovdje.
PPC studija pronasla je da 63% alata ili preskace provjeru ili koristi jednostavniju metodu. Oba problema pojavljuju se istovremeno: lazno pozitivni i lazno negativni rezultati.
Luhnov algoritam, koji se koristi za kreditne kartice, jednostavniji je. My Number ne koristi Luhn. Alati izgradujeni za Luhn nece raditi ovdje.
Tri pisma, jedan naziv
Japanskji tekst istovremeno koristi tri sustava pisanja. Alat mora obraditi sva tri.
Hiragana: Koristi se za gramatiku i izvorene rijeci. 46 osnovnih znakova.
Katakana: Koristi se za strane rijeci i imenice. 46 osnovnih znakova. Strana imena u Japanu pojavljuju se u ovom pismu.
Kanji: Simboli za imenice i nazive. Oko 2.000 u svakodnevnoj upotrebi.
Ime jedne osobe moze se pojaviti u cetiri oblika: Kanji, Hiragana, Katakana i Romaji (Tanaka Taro). Alat mora prepoznati sva cetiri. Ako propusti jedan, propustit ce vecinu zapisa te osobe.
Drugi japanski identifikatori koje treba prepoznati
Vozacka dozvola: 12 znamenki. Prve dvije znamenke prikazuju prefekturu. Tokyo je 10. Osaka je 62. To alatu omogucava provjeru je li vrijednost valjana za tu regiju.
Putovnica: Dva slova plus sedam znamenki. ICAO format. Japan koristi specificne parove slova.
Kartica zdravstvenog osiguranja: Simbol plus broj. Format ovisi o osiguravatelju. Nacionalno zdravstveno osiguranje i Osiguranje koje upravljaju drustva koriste razlicite formate.
Boravisna iskaznica: Za strane rezidente. Dva slova, osam znamenki, dva slova. Ministarstvo pravosudja izdaje ovu karticu.
APPI pravilo anonimizacije
APPI ima strog standard anonimiziranih podataka koji se zove anonimizirane informacije. Ide dalje od GDPR-a u jednom kljucnom podrucju. Anonimizacija mora biti provjerljiva od trece strane i tehnicki nepovratna.
Za uskladivanje, organizacija mora:
- Ukloniti sve izravne identifikatore, ukljucujuci My Number.
- Obraditi sve kombinacije kvazi-identifikatora.
- Koristiti k-anonimnost ili slicnu metodu.
- Objaviti opci opis poduzetih koraka.
- Nikada ne pokusavati re-identificirati podatke.
PPC-ove smjernice za UI iz 2024. dodaju specificno pravilo. Ako trenirate UI na anonimiziranim podacima, ne mozete koristiti taj model za re-identifikaciju osoba. Ovo je izravna zabrana napada inverzijom modela na APPI skupove za treniranje.
Za ispunjavanje PPC standarda trebate cetiri stvari. Prvo, Verhoeff validacija za detekciju My Numbera. Drugo, japanski NER koristeci ja_core_news s ispravnom tokenizacijom. Trece, uskladivanje imena u Kanji, Kana i Romaji oblicima. Cetvrto, provjere prefekturalnih kodova za vozacke dozvole.
Indija koristi Aadhaar, koji takodjer zahtijeva Verhoeff validaciju. Vodic za tehnicko uskladivanje s India DPDPA pokriva to u detalje. Za detekciju identifikatora u vise zemalja pogledajte Detekcija nacionalnih poreznih identifikatora EU prema GDPR-u.