By · Last updated 2026-06-05

Atpakaļ uz BloguGDPR un Atbilstība

Japānas My Number: Verhoeff un APPI

63% vispārīgo rīku nespēj atpazīt My Number japāņu dokumentos. My Number izmanto Verhoeff algoritmu — vissarežģītāko nacionālā ID kontrolsummu Āzijā.

June 5, 20268 min lasīšanai
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japānas My Number: APPI un Verhoeff pārbaude

Japānas Personas informācijas aizsardzības komisija (PPC) 2024. gadā izdeva 45 izpildes lēmumus. Tā arī publicēja Japānas pirmo AI privātuma vadlīniju. PPC pētījums konstatēja, ka 63% vispārīgo NLP rīku nespēj atpazīt My Number (マイナンバー) japāņu failos. Ja jūsu komanda apstrādā Japānas iedzīvotāju datus, šī nepilnība nozīmē tiešu APPI risku.

Kas ir My Number

Japāna katram iedzīvotājam piešķir unikālu 12 ciparu identifikatoru. Tas ir My Number, individuālā numura sistēmas (マイナンバー制度) daļa. Tas aptver nodokļus, pensiju, veselības apdrošināšanu un katastrofu reaģēšanu. Šis identifikators ir sensitīvi dati saskaņā ar APPI. Lai to ievāktu vai kopīgotu, jums nepieciešams juridisks pamats.

Verhoeff pārbaudes problēma

My Number izmanto Verhoeff algoritmu kontrolciparam. Verhoeff ir matemātiska metode, kas atklāj visas viena cipara kļūdas. Tā arī atklāj visas kļūdas, kur divi blakus cipari apmainās vietām. Tai nepieciešamas trīs uzmeklēšanas tabulas. To nevar aprēķināt ar rokām. Tas prasa kodu.

Tas ir svarīgi divu iemeslu dēļ. Pirmkārt, Japānas 12 ciparu formāts izskatās kā daudzi citi kodi. Rēķinu atsauces, dokumentu ID un datuma virknes — visām ir vienāds formāts. Bez Verhoeff pārbaudes rīks atzīmēs nepareizas vērtības. Otrkārt, lielākā daļa rīku neizmanto Verhoeff. Tie izmanto vienkāršākas modulo-10 vai modulo-11 pārbaudes. Tās šeit nedarbojas.

PPC pētījums konstatēja, ka 63% rīku vai nu izlaiž pārbaudi, vai izmanto vienkāršāku metodi. Abas problēmas rodas vienlaikus: viltus pozitīvi un viltus negatīvi.

Luhn algoritms, ko izmanto kredītkartēm, ir vienkāršāks. My Number neizmanto Luhn. Rīki, kas veidoti Luhn algoritma ievērošanai, šeit nedarbosies.

Trīs skripti, viens vārds

Japāņu teksts vienlaikus izmanto trīs rakstības sistēmas. Rīkam jāapstrādā visas trīs.

Hiragana (ひらがな): Lieto gramatikai un vietējiem vārdiem. 46 pamata rakstzīmes.

Katakana (カタカナ): Lieto ārvalstu vārdiem un vārdiem. 46 pamata rakstzīmes. Ārvalstu vārdi Japānā parādās šajā skriptā.

Kanji (漢字): Simboli lietvārdiem un vārdiem. Aptuveni 2000 ir plaši lietoti.

Vienas personas vārds var parādīties četrās formās: kanji (田中太郎), hiragana (たなかたろう), katakana (タナカ タロウ) un romaji (Tanaka Taro). Rīkam jāatbilst visām četrām. Ja tas palaiž vienu, tas palaidīs lielāko daļu šīs personas ierakstu.

Citi japāniskie ID, kas jāatpazīst

Vadītāja apliecība (運転免許証番号): 12 cipari. Pirmie divi cipari norāda prefektūru. Tokija ir 10. Osaka ir 62. Tas ļauj rīkam pārbaudīt, vai vērtība ir derīga šim reģionam.

Pase (旅券番号): Divi burti plus septiņi cipari. ICAO formāts. Japāna izmanto specifiskus burtu pārus.

Veselības apdrošināšanas karte (健康保険証記号番号): Simbols plus numurs. Formāts ir atkarīgs no apdrošinātāja. Nacionālā veselības apdrošināšana (国民健康保険) un sabiedrības pārvaldītā apdrošināšana (協会けんぽ) izmanto atšķirīgus formātus.

Uzturēšanās karte (在留カード番号): Ārvalstu iedzīvotājiem. Divi burti, astoņi cipari, divi burti. Tieslietu ministrija izsniedz šo karti.

APPI anonimizācijas noteikums

APPI ir stingrs anonimizēto datu standarts, ko sauc par anonimizēto informāciju (匿名加工情報). Vienā galvenajā jomā tas pārsniedz VDAR. Anonimizācijai jābūt trešo pušu pārbaudāmai un tehniski neatgriezeniskai.

Lai atbilstu, organizācijai jāveic:

  1. Noņemiet visus tiešos identifikatorus, tostarp My Number.
  2. Apstrādājiet visas kvaziidentifikatoru kombinācijas.
  3. Izmantojiet k-anonimitāti vai līdzīgu metodi.
  4. Publicējiet veikto pasākumu vispārīgu aprakstu.
  5. Nekad nemēģiniet atkārtoti identificēt datus.

PPC 2024. gada AI vadlīnijas pievieno īpašu noteikumu. Ja jūs apmācāt AI ar anonimizētiem datiem, jūs nedrīkstat izmantot šo modeli, lai identificētu cilvēkus no jauna. Tas ir tiešs aizliegums modeļu inversijas uzbrukumiem pret APPI apmācības kopām.

Lai izpildītu PPC standartus, jums nepieciešamas četras lietas. Pirmkārt, Verhoeff validācija My Number atpazīšanai. Otrkārt, japāņu NER, izmantojot ja_core_news ar pareizu tokenizāciju. Treškārt, vārdu atbilstība kanji, kana un romaji. Ceturtkārt, prefektūras koda pārbaudes vadītāja apliecībām.

Indija izmanto Aadhaar, kam arī nepieciešama Verhoeff validācija. Indijas DPDPA tehniskās atbilstības rokasgrāmata to aplūko sīkāk. Daudzvalstu identifikatoru atpazīšanu skatiet ES nacionālo nodokļu ID atpazīšana VDAR atbilstībai.

Avoti

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.