Japan My Number: APPI en die Verhoeff-kontrole
Japan se Persoonlike Inligtingbeskermingskommissie (PPC) het 45 afdwingingsbeslissings in 2024 uitgereik. Dit het ook Japan se eerste KI-privaatheidsleiding gepubliseer. 'n PPC-studie het bevind dat 63% van generiese NLP-gereedskap My Number (マイナンバー) in Japannese leers nie opspoor nie. As jou span data van Japannese inwoners hanteer, beteken hierdie gaping direkte APPI-risiko.
Wat My Number Is
Japan gee elke inwoner 'n unieke 12-syfer-identifikasienommer. Dit is My Number, deel van die Individuele Nommerstelsel (マイナンバー制度). Dit dek belasting, pensioen, gesondheidsversekering en ramprespons. Hierdie identifikasienommer is sensitiewe data onder APPI. Jy benodig 'n wettige rede om dit te versamel of te deel.
Die Verhoeff-kontroleprobleem
My Number gebruik die Verhoeff-algoritme vir sy kontrolesyfer. Verhoeff is 'n wiskundige metode wat alle enkel-syferfoute vang. Dit vang ook alle foute waar twee aangrensende syfers omruil. Dit benodig drie opsoektabelle om te werk. Jy kan dit nie met die hand bereken nie. Dit vereis kode.
Dit is om twee redes belangrik. Eerstens lyk Japan se 12-syfer-formaat soos baie ander kodes. Faktuurverwysings, dokument-ID's en datumstringe deel almal dieselfde formaat. Sonder 'n Verhoeff-kontrole sal 'n gereedskap die verkeerde waardes merk. Tweedens gebruik die meeste gereedskap nie Verhoeff nie. Hulle gebruik eenvoudiger modulo-10 of modulo-11-kontroles. Daardie werk nie hier nie.
Die PPC-studie het bevind dat 63% van gereedskap die kontrole oorslaan of 'n eenvoudiger metode gebruik. Beide probleme kom gelyktydig voor: vals positief en vals negatief.
Die Luhn-algoritme, wat vir kredietkaarte gebruik word, is eenvoudiger. My Number gebruik nie Luhn nie. Gereedskap wat vir Luhn gebou is, sal nie werk nie.
Drie Skrifte, Een Naam
Japannese teks gebruik drie skryfstelsels gelyktydig. 'n Gereedskap moet al drie hanteer.
Hiragana (ひらがな): Gebruik vir grammatika en inheemse woorde. 46 basiskarakters.
Katakana (カタカナ): Gebruik vir vreemde woorde en name. 46 basiskarakters. Vreemde name in Japan verskyn in hierdie skrip.
Kanji (漢字): Simbole vir naamwoorde en name. Ongeveer 2 000 is algemeen in gebruik.
Een persoon se naam kan in vier vorme verskyn: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) en Romaji (Tanaka Taro). 'n Gereedskap moet al vier pas. As dit een mis, mis dit die meeste van daardie persoon se rekords.
Ander Japannese ID's om Op te Spoor
Rybewys (運転免許証番号): 12 syfers. Die eerste twee syfers wys die prefektuur. Tokio is 10. Osaka is 62. Dit laat 'n gereedskap toe om te kontroleer of die waarde geldig is vir daardie streek.
Paspoort (旅券番号): Twee letters plus sewe syfers. ICAO-formaat. Japan gebruik spesifieke letterpare.
Gesondheidsversekeringkaart (健康保険証記号番号): 'n Simbool plus 'n nommer. Die formaat hang af van die versekeraar. Nasionale Gesondheidsversekering (国民健康保険) en Maatskappy-bestuurde Versekering (協会けんぽ) gebruik verskillende formate.
Verblyfskaart (在留カード番号): Vir buitelandse inwoners. Twee letters, agt syfers, twee letters. Die Ministerie van Justisie reik hierdie kaart uit.
APPI se Anonimiseringsreel
APPI het 'n streng anonimiseerdedata-standaard genaamd geanonimiseerde inligting (匿名加工情報). Dit gaan verder as GDPR op een sleutelgebied. Anonimisering moet deur derde partye verifieerbaar en tegnies onomkeerbaar wees.
Om te voldoen moet 'n organisasie:
- Alle direkte identifikasienummers verwyder, insluitend My Number.
- Alle quasi-identifikasiekombinasies hanteer.
- k-anonimiteit of 'n soortgelyke metode gebruik.
- 'n Algemene beskrywing van die stappe wat geneem is, publiseer.
- Nooit probeer om die data te her-identifiseer nie.
Die PPC se 2024 KI-leiding voeg 'n spesifieke reel by. As jy 'n KI op geanonimiseerde data oplei, kan jy nie daardie model gebruik om mense te her-identifiseer nie. Dit is 'n direkte verbod op modelomkeringsaanvalle teen APPI-opleidingsstelle.
Om PPC-standaarde te bereik, benodig jy vier dinge. Eerstens, Verhoeff-validering vir My Number-opsporing. Tweedens, Japannese NER wat ja_core_news met behoorlike tokenisering gebruik. Derdens, naampassing oor Kanji, Kana en Romaji. Vierdens, prefektuurkodekontroleer vir rybewysers.
Indie gebruik Aadhaar, wat ook Verhoeff-validering vereis. Die India DPDPA tegniese nakomingsgids dek dit in detail. Vir multi-land-identifikasienummeropsporing, sien EU nasionale belasting-ID-opsporing onder GDPR.