Japanski My Number: APPI i Verhoeff provera
Japanska Komisija za zastitu licnih podataka (PPC) donela je 45 odluka o primeni propisa u 2024. godini. Objavila je i prve japanske smernice za privatnost u oblasti vestacke inteligencije. Studija PPC-a otkrila je da 63% generickih NLP alata ne uspeva da detektuje My Number (マイナンバー) u japanskim datotekama. Ako vas tim obradjuje podatke japanskih rezidenata, taj jaz znaci direktan rizik po APPI.
Sta je My Number
Japan svakom stanovniku dodeljuje jedinstveni 12-cifreni identifikator. To je My Number, deo Sistema individualnih brojeva (マイナンバー制度). Pokriva porez, penziju, zdravstveno osiguranje i odgovor na katastrofe. Ovaj identifikator je osetljiv podatak prema APPI-ju. Potrebno vam je pravno utemeljenje za njegovo prikupljanje ili deljenje.
Problem Verhoeff provere
My Number koristi Verhoeff algoritam za svoju kontrolnu cifru. Verhoeff je matematicka metoda koja otkriva sve jednocifrene greske. Takodje otkriva sve greske gde se zamenjuju dve susedne cifre. Za rad su mu potrebne tri tablice pretrazivanja. Ne moze se izracunati rucno. Zahteva kod.
Ovo je vazno iz dva razloga. Prvo, japanski 12-cifreni format lici na mnoge druge kodove. Referentni brojevi faktura, ID-ovi dokumenata i nizovi datuma dele isti format. Bez Verhoeff provere, alat ce oznacavati pogresne vrednosti. Drugo, vecina alata ne koristi Verhoeff. Koriste jednostavnije provere modulo-10 ili modulo-11. Te ne rade ovde.
Studija PPC-a utvrdila je da 63% alata ili preskace proveru ili koristi jednostavniju metodu. Oba problema se javljaju istovremeno: lazno pozitivni i lazno negativni rezultati.
Luhn algoritam, koji se koristi za kreditne kartice, jednostavniji je. My Number ne koristi Luhn. Alati napravljeni za Luhn nece raditi ovde.
Tri pisma, jedno ime
Japanski tekst istovremeno koristi tri sistema pisanja. Alat mora da obradjuje sva tri.
Hiragana (ひらがな): Koristi se za gramatiku i domace reci. 46 osnovnih znakova.
Katakana (カタカナ): Koristi se za strane reci i imena. 46 osnovnih znakova. Strana imena u Japanu pojavljuju se u ovom pismu.
Kanji (漢字): Simboli za imenice i imena. Oko 2.000 ih je u cestoj upotrebi.
Ime jedne osobe moze se pojaviti u cetiri oblika: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) i Romaji (Tanaka Taro). Alat mora da prepozna sve cetiri. Ako propusti jedan, propustice vecinu zapisa te osobe.
Drugi japanski ID-ovi za detekciju
Vozacka dozvola (運転免許証番号): 12 cifara. Prve dve cifre oznacavaju prefekturu. Tokio je 10. Osaka je 62. To dozvoljava alatu da proveri da li je vrednost validna za taj region.
Pasos (旅券番号): Dva slova plus sedam cifara. ICAO format. Japan koristi specificne parove slova.
Kartica zdravstvenog osiguranja (健康保険証記号番号): Simbol plus broj. Format zavisi od osiguravaca. Nacionalno zdravstveno osiguranje (国民健康保険) i Drustveno upravljano osiguranje (協会けんぽ) koriste razlicite formate.
Kartica boravka (在留カード番号): Za strane rezidente. Dva slova, osam cifara, dva slova. Ministarstvo pravde izdaje ovu karticu.
Pravilo anonimizacije prema APPI-ju
APPI ima strog standard anonimizovanih podataka pod nazivom anonimizovane informacije (匿名加工情報). On ide dalje od GDPR-a u jednoj kljucnoj oblasti. Anonimizacija mora biti proverljiva od strane trecih lica i tehnicki nepovratna.
Radi uskladjenosti, organizacija mora:
- Ukloniti sve direktne identifikatore, ukljucujuci My Number.
- Obraditi sve kombinacije kvazi-identifikatora.
- Koristiti k-anonimnost ili slicnu metodu.
- Objaviti opsti opis preduzetih koraka.
- Nikada ne pokusavati ponovo identifikovati podatke.
Smernice PPC-a za VI iz 2024. dodaju specificno pravilo. Ako trenirate VI na anonimizovanim podacima, ne mozete koristiti taj model za ponovnu identifikaciju osoba. Ovo je direktna zabrana napada inverzijom modela na APPI skupove za obuku.
Da biste ispunili standarde PPC-a, potrebne su vam cetiri stvari. Prvo, Verhoeff validacija za detekciju My Number. Drugo, japanski NER koristeci ja_core_news uz pravilnu tokenizaciju. Trece, podudaranje imena kroz Kanji, Kana i Romaji. Cetvrto, provere kodova prefekture za vozacke dozvole.
Indija koristi Aadhaar, koji takodje zahteva Verhoeff validaciju. Vodic za tehnicku uskladjenost sa indijskim DPDPA pokriva to detaljno. Za detekciju identifikatora vise zemalja, pogledajte detekciju EU nacionalnih poreskih ID-ova prema GDPR-u.