Јапонски My Number: APPI и Verhoeff проверката

Јапанската Комисија за заштита на лични информации (PPC) издала 45 извршни одлуки во 2024 година. Исто така, публикувала прво јапонско упатство за приватност на вештачка интелигенција. Студијата на PPC утврдила дека 63% од генеричките NLP алатки не успеваат да го откријат My Number (マイナンバー) во јапонски датотеки. Ако вашиот тим ракува со податоци на јапонски жители, тој јаз значи директен ризик за APPI.

Што е My Number

Јапонија на секој жител му доделува уникатен 12-цифрен идентификатор. Тоа е My Number, дел од Системот за индивидуални броеви (マイナンバー制度). Опфаќа даноци, пензии, здравствено осигурување и реагирање на катастрофи. Овој идентификатор е чувствителен податок под APPI. Потребна ви е правна основа за негово собирање или споделување.

Проблемот со Verhoeff проверката

My Number го користи Verhoeff алгоритамот за контролната цифра. Verhoeff е математичка метода која ги фаќа сите грешки со единечна цифра. Исто така ги фаќа сите грешки каде двете соседни цифри се разменуваат. Потребни се три табели за пребарување за да работи. Не може да се пресмета рачно. Бара код.

Ова е важно поради две причини. Прво, 12-цифрениот формат на Јапонија изгледа слично на многу други кодови. Референтните броеви на фактури, документарни идентификатори и низи на датуми го делат истиот формат. Без Verhoeff проверка, алатката ќе означи погрешни вредности. Второ, повеќето алатки не го користат Verhoeff. Тие користат поедноставени проверки по модул-10 или модул-11. Тие не функционираат тука.

Студијата на PPC утврдила дека 63% од алатките или ја прескокнуваат проверката или користат поедноставена метода. Двата проблеми се јавуваат истовремено: лажни позитивни и лажни негативни резултати.

Luhn алгоритамот, кој се користи за кредитни картички, е поедноставен. My Number не го користи Luhn. Алатките изградени за Luhn нема да функционираат.

Три писма, едно име

Јапонскиот текст истовремено користи три системи за пишување. Алатката мора да ги обработи сите три.

Хирагана (ひらがな): Се користи за граматика и домашни зборови. 46 основни знаци.

Катакана (カタカナ): Се користи за странски зборови и имиња. 46 основни знаци. Странски имиња во Јапонија се пишуваат со ова писмо.

Кандзи (漢字): Симболи за именки и имиња. Во секојдневна употреба се приближно 2.000.

Името на една личност може да се јави во четири форми: кандзи (田中太郎), хирагана (たなかたろう), катакана (タナカタロウ) и ромаџи (Tanaka Taro). Алатката мора да ги совпадне сите четири. Ако пропушти една, ги пропушта повеќето записи на таа личност.

Други јапонски идентификатори за откривање

Возачка дозвола (運転免許証番号): 12 цифри. Првите две цифри ја покажуваат префектурата. Токио е 10. Осака е 62. Ова му овозможува на алатката да провери дали вредноста е валидна за тој регион.

Пасош (旅券番号): Две букви плус седум цифри. Формат ICAO. Јапонија користи специфични парови букви.

Картичка за здравствено осигурување (健康保険証記号番号): Симбол плус број. Форматот зависи од осигурителот. Националното здравствено осигурување (国民健康保険) и Осигурувањето управувано од здруженија (協会けんぽ) користат различни формати.

Карта за престој (在留カード番号): За странски жители. Две букви, осум цифри, две букви. Министерството за правда ја издава оваа картичка.

Правилото за анонимизација на APPI

APPI има строг стандард за анонимизирани податоци наречен анонимизирани информации (匿名加工情報). Тој оди подалеку од GDPR во една клучна област. Анонимизацијата мора да биде верификувана од трета страна и технички неповратна.

За да се усогласи, организацијата мора да:

Ги отстрани сите директни идентификатори, вклучувајќи го My Number.
Ракува со сите комбинации на квази-идентификатори.
Користи k-анонимност или слична метода.
Објави општ опис на преземените чекори.
Никогаш не обидува повторно да ги идентификува податоците.

Упатството за вештачка интелигенција на PPC за 2024 година додава специфично правило. Ако тренирате вештачка интелигенција на анонимизирани податоци, не можете да го користите тој модел за повторна идентификација на луѓе. Ова е директна забрана за напади на инверзија на модел против APPI сетови за обука.

За да ги исполните стандардите на PPC, потребни ви се четири работи. Прво, Verhoeff валидација за откривање на My Number. Второ, јапонско NER со користење на ja_core_news со правилна токенизација. Трето, совпаѓање на имиња низ кандзи, кана и ромаџи. Четврто, проверки на кодот на префектурата за возачки дозволи.

Индија го користи Aadhaar, кој исто така бара Verhoeff валидација. Водичот за техничка усогласеност со индиска DPDPA го покрива тоа детално. За откривање на идентификатори во повеќе земји, погледнете го откривањето на националните даночни идентификатори во ЕУ под GDPR.

Извори

Поврзани статии

GDPR & Усогласеност

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

Започнете бесплатен пробен период Погледнете ги карактеристиките

Јапонски My Number: Verhoeff и APPI

Јапонски My Number: APPI и Verhoeff проверката

Што е My Number

Проблемот со Verhoeff проверката

Три писма, едно име

Други јапонски идентификатори за откривање

Правилото за анонимизација на APPI

Извори

Поврзани статии

Самохостираниот PII не успева на ревизии за усогласеност

Presidio пропушта 220+ GDPR ентитети

Дрејф во конфигурацијата: Скриен ризик по GDPR

Подготвени да ги заштитите вашите податоци?

Јапонски My Number: Verhoeff и APPI

Јапонски My Number: APPI и Verhoeff проверката

Што е My Number

Проблемот со Verhoeff проверката

Три писма, едно име

Други јапонски идентификатори за откривање

Правилото за анонимизација на APPI

Извори

Поврзани статии

Самохостираниот PII не успева на ревизии за усогласеност

Presidio пропушта 220+ GDPR ентитети

Дрејф во конфигурацијата: Скриен ризик по GDPR

Подготвени да ги заштитите вашите податоци?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow