Јапонски My Number: APPI и Verhoeff проверката
Јапанската Комисија за заштита на лични информации (PPC) издала 45 извршни одлуки во 2024 година. Исто така, публикувала прво јапонско упатство за приватност на вештачка интелигенција. Студијата на PPC утврдила дека 63% од генеричките NLP алатки не успеваат да го откријат My Number (マイナンバー) во јапонски датотеки. Ако вашиот тим ракува со податоци на јапонски жители, тој јаз значи директен ризик за APPI.
Што е My Number
Јапонија на секој жител му доделува уникатен 12-цифрен идентификатор. Тоа е My Number, дел од Системот за индивидуални броеви (マイナンバー制度). Опфаќа даноци, пензии, здравствено осигурување и реагирање на катастрофи. Овој идентификатор е чувствителен податок под APPI. Потребна ви е правна основа за негово собирање или споделување.
Проблемот со Verhoeff проверката
My Number го користи Verhoeff алгоритамот за контролната цифра. Verhoeff е математичка метода која ги фаќа сите грешки со единечна цифра. Исто така ги фаќа сите грешки каде двете соседни цифри се разменуваат. Потребни се три табели за пребарување за да работи. Не може да се пресмета рачно. Бара код.
Ова е важно поради две причини. Прво, 12-цифрениот формат на Јапонија изгледа слично на многу други кодови. Референтните броеви на фактури, документарни идентификатори и низи на датуми го делат истиот формат. Без Verhoeff проверка, алатката ќе означи погрешни вредности. Второ, повеќето алатки не го користат Verhoeff. Тие користат поедноставени проверки по модул-10 или модул-11. Тие не функционираат тука.
Студијата на PPC утврдила дека 63% од алатките или ја прескокнуваат проверката или користат поедноставена метода. Двата проблеми се јавуваат истовремено: лажни позитивни и лажни негативни резултати.
Luhn алгоритамот, кој се користи за кредитни картички, е поедноставен. My Number не го користи Luhn. Алатките изградени за Luhn нема да функционираат.
Три писма, едно име
Јапонскиот текст истовремено користи три системи за пишување. Алатката мора да ги обработи сите три.
Хирагана (ひらがな): Се користи за граматика и домашни зборови. 46 основни знаци.
Катакана (カタカナ): Се користи за странски зборови и имиња. 46 основни знаци. Странски имиња во Јапонија се пишуваат со ова писмо.
Кандзи (漢字): Симболи за именки и имиња. Во секојдневна употреба се приближно 2.000.
Името на една личност може да се јави во четири форми: кандзи (田中太郎), хирагана (たなかたろう), катакана (タナカ タロウ) и ромаџи (Tanaka Taro). Алатката мора да ги совпадне сите четири. Ако пропушти една, ги пропушта повеќето записи на таа личност.
Други јапонски идентификатори за откривање
Возачка дозвола (運転免許証番号): 12 цифри. Првите две цифри ја покажуваат префектурата. Токио е 10. Осака е 62. Ова му овозможува на алатката да провери дали вредноста е валидна за тој регион.
Пасош (旅券番号): Две букви плус седум цифри. Формат ICAO. Јапонија користи специфични парови букви.
Картичка за здравствено осигурување (健康保険証記号番号): Симбол плус број. Форматот зависи од осигурителот. Националното здравствено осигурување (国民健康保険) и Осигурувањето управувано од здруженија (協会けんぽ) користат различни формати.
Карта за престој (在留カード番号): За странски жители. Две букви, осум цифри, две букви. Министерството за правда ја издава оваа картичка.
Правилото за анонимизација на APPI
APPI има строг стандард за анонимизирани податоци наречен анонимизирани информации (匿名加工情報). Тој оди подалеку од GDPR во една клучна област. Анонимизацијата мора да биде верификувана од трета страна и технички неповратна.
За да се усогласи, организацијата мора да:
- Ги отстрани сите директни идентификатори, вклучувајќи го My Number.
- Ракува со сите комбинации на квази-идентификатори.
- Користи k-анонимност или слична метода.
- Објави општ опис на преземените чекори.
- Никогаш не обидува повторно да ги идентификува податоците.
Упатството за вештачка интелигенција на PPC за 2024 година додава специфично правило. Ако тренирате вештачка интелигенција на анонимизирани податоци, не можете да го користите тој модел за повторна идентификација на луѓе. Ова е директна забрана за напади на инверзија на модел против APPI сетови за обука.
За да ги исполните стандардите на PPC, потребни ви се четири работи. Прво, Verhoeff валидација за откривање на My Number. Второ, јапонско NER со користење на ja_core_news со правилна токенизација. Трето, совпаѓање на имиња низ кандзи, кана и ромаџи. Четврто, проверки на кодот на префектурата за возачки дозволи.
Индија го користи Aadhaar, кој исто така бара Verhoeff валидација. Водичот за техничка усогласеност со индиска DPDPA го покрива тоа детално. За откривање на идентификатори во повеќе земји, погледнете го откривањето на националните даночни идентификатори во ЕУ под GDPR.