anonym.legal

By · Last updated 2026-06-05

Назад на блоготGDPR & Усогласеност

Јапонски My Number: Verhoeff и APPI

63% од генеричките алатки не успеваат да го откријат My Number во јапонски документи. My Number го користи Verhoeff алгоритамот — најсложената национална контролна сума за идентификатори во Азија.

June 5, 20268 мин читање
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Јапонски My Number: APPI и Verhoeff проверката

Јапанската Комисија за заштита на лични информации (PPC) издала 45 извршни одлуки во 2024 година. Исто така, публикувала прво јапонско упатство за приватност на вештачка интелигенција. Студијата на PPC утврдила дека 63% од генеричките NLP алатки не успеваат да го откријат My Number (マイナンバー) во јапонски датотеки. Ако вашиот тим ракува со податоци на јапонски жители, тој јаз значи директен ризик за APPI.

Што е My Number

Јапонија на секој жител му доделува уникатен 12-цифрен идентификатор. Тоа е My Number, дел од Системот за индивидуални броеви (マイナンバー制度). Опфаќа даноци, пензии, здравствено осигурување и реагирање на катастрофи. Овој идентификатор е чувствителен податок под APPI. Потребна ви е правна основа за негово собирање или споделување.

Проблемот со Verhoeff проверката

My Number го користи Verhoeff алгоритамот за контролната цифра. Verhoeff е математичка метода која ги фаќа сите грешки со единечна цифра. Исто така ги фаќа сите грешки каде двете соседни цифри се разменуваат. Потребни се три табели за пребарување за да работи. Не може да се пресмета рачно. Бара код.

Ова е важно поради две причини. Прво, 12-цифрениот формат на Јапонија изгледа слично на многу други кодови. Референтните броеви на фактури, документарни идентификатори и низи на датуми го делат истиот формат. Без Verhoeff проверка, алатката ќе означи погрешни вредности. Второ, повеќето алатки не го користат Verhoeff. Тие користат поедноставени проверки по модул-10 или модул-11. Тие не функционираат тука.

Студијата на PPC утврдила дека 63% од алатките или ја прескокнуваат проверката или користат поедноставена метода. Двата проблеми се јавуваат истовремено: лажни позитивни и лажни негативни резултати.

Luhn алгоритамот, кој се користи за кредитни картички, е поедноставен. My Number не го користи Luhn. Алатките изградени за Luhn нема да функционираат.

Три писма, едно име

Јапонскиот текст истовремено користи три системи за пишување. Алатката мора да ги обработи сите три.

Хирагана (ひらがな): Се користи за граматика и домашни зборови. 46 основни знаци.

Катакана (カタカナ): Се користи за странски зборови и имиња. 46 основни знаци. Странски имиња во Јапонија се пишуваат со ова писмо.

Кандзи (漢字): Симболи за именки и имиња. Во секојдневна употреба се приближно 2.000.

Името на една личност може да се јави во четири форми: кандзи (田中太郎), хирагана (たなかたろう), катакана (タナカ タロウ) и ромаџи (Tanaka Taro). Алатката мора да ги совпадне сите четири. Ако пропушти една, ги пропушта повеќето записи на таа личност.

Други јапонски идентификатори за откривање

Возачка дозвола (運転免許証番号): 12 цифри. Првите две цифри ја покажуваат префектурата. Токио е 10. Осака е 62. Ова му овозможува на алатката да провери дали вредноста е валидна за тој регион.

Пасош (旅券番号): Две букви плус седум цифри. Формат ICAO. Јапонија користи специфични парови букви.

Картичка за здравствено осигурување (健康保険証記号番号): Симбол плус број. Форматот зависи од осигурителот. Националното здравствено осигурување (国民健康保険) и Осигурувањето управувано од здруженија (協会けんぽ) користат различни формати.

Карта за престој (在留カード番号): За странски жители. Две букви, осум цифри, две букви. Министерството за правда ја издава оваа картичка.

Правилото за анонимизација на APPI

APPI има строг стандард за анонимизирани податоци наречен анонимизирани информации (匿名加工情報). Тој оди подалеку од GDPR во една клучна област. Анонимизацијата мора да биде верификувана од трета страна и технички неповратна.

За да се усогласи, организацијата мора да:

  1. Ги отстрани сите директни идентификатори, вклучувајќи го My Number.
  2. Ракува со сите комбинации на квази-идентификатори.
  3. Користи k-анонимност или слична метода.
  4. Објави општ опис на преземените чекори.
  5. Никогаш не обидува повторно да ги идентификува податоците.

Упатството за вештачка интелигенција на PPC за 2024 година додава специфично правило. Ако тренирате вештачка интелигенција на анонимизирани податоци, не можете да го користите тој модел за повторна идентификација на луѓе. Ова е директна забрана за напади на инверзија на модел против APPI сетови за обука.

За да ги исполните стандардите на PPC, потребни ви се четири работи. Прво, Verhoeff валидација за откривање на My Number. Второ, јапонско NER со користење на ja_core_news со правилна токенизација. Трето, совпаѓање на имиња низ кандзи, кана и ромаџи. Четврто, проверки на кодот на префектурата за возачки дозволи.

Индија го користи Aadhaar, кој исто така бара Verhoeff валидација. Водичот за техничка усогласеност со индиска DPDPA го покрива тоа детално. За откривање на идентификатори во повеќе земји, погледнете го откривањето на националните даночни идентификатори во ЕУ под GDPR.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.