anonym.legal

By · Last updated 2026-06-05

Povratak na blogGDPR i usklađenost

Japanski My Number: Verhoeff i APPI

63% generickih alata ne uspeva da detektuje My Number u japanskim dokumentima. My Number koristi Verhoeff algoritam — najslozeniju kontrolnu sumu nacionalnog ID-a u Aziji.

June 5, 20268 min čitanja
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japanski My Number: APPI i Verhoeff provera

Japanska Komisija za zastitu licnih podataka (PPC) donela je 45 odluka o primeni propisa u 2024. godini. Objavila je i prve japanske smernice za privatnost u oblasti vestacke inteligencije. Studija PPC-a otkrila je da 63% generickih NLP alata ne uspeva da detektuje My Number (マイナンバー) u japanskim datotekama. Ako vas tim obradjuje podatke japanskih rezidenata, taj jaz znaci direktan rizik po APPI.

Sta je My Number

Japan svakom stanovniku dodeljuje jedinstveni 12-cifreni identifikator. To je My Number, deo Sistema individualnih brojeva (マイナンバー制度). Pokriva porez, penziju, zdravstveno osiguranje i odgovor na katastrofe. Ovaj identifikator je osetljiv podatak prema APPI-ju. Potrebno vam je pravno utemeljenje za njegovo prikupljanje ili deljenje.

Problem Verhoeff provere

My Number koristi Verhoeff algoritam za svoju kontrolnu cifru. Verhoeff je matematicka metoda koja otkriva sve jednocifrene greske. Takodje otkriva sve greske gde se zamenjuju dve susedne cifre. Za rad su mu potrebne tri tablice pretrazivanja. Ne moze se izracunati rucno. Zahteva kod.

Ovo je vazno iz dva razloga. Prvo, japanski 12-cifreni format lici na mnoge druge kodove. Referentni brojevi faktura, ID-ovi dokumenata i nizovi datuma dele isti format. Bez Verhoeff provere, alat ce oznacavati pogresne vrednosti. Drugo, vecina alata ne koristi Verhoeff. Koriste jednostavnije provere modulo-10 ili modulo-11. Te ne rade ovde.

Studija PPC-a utvrdila je da 63% alata ili preskace proveru ili koristi jednostavniju metodu. Oba problema se javljaju istovremeno: lazno pozitivni i lazno negativni rezultati.

Luhn algoritam, koji se koristi za kreditne kartice, jednostavniji je. My Number ne koristi Luhn. Alati napravljeni za Luhn nece raditi ovde.

Tri pisma, jedno ime

Japanski tekst istovremeno koristi tri sistema pisanja. Alat mora da obradjuje sva tri.

Hiragana (ひらがな): Koristi se za gramatiku i domace reci. 46 osnovnih znakova.

Katakana (カタカナ): Koristi se za strane reci i imena. 46 osnovnih znakova. Strana imena u Japanu pojavljuju se u ovom pismu.

Kanji (漢字): Simboli za imenice i imena. Oko 2.000 ih je u cestoj upotrebi.

Ime jedne osobe moze se pojaviti u cetiri oblika: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) i Romaji (Tanaka Taro). Alat mora da prepozna sve cetiri. Ako propusti jedan, propustice vecinu zapisa te osobe.

Drugi japanski ID-ovi za detekciju

Vozacka dozvola (運転免許証番号): 12 cifara. Prve dve cifre oznacavaju prefekturu. Tokio je 10. Osaka je 62. To dozvoljava alatu da proveri da li je vrednost validna za taj region.

Pasos (旅券番号): Dva slova plus sedam cifara. ICAO format. Japan koristi specificne parove slova.

Kartica zdravstvenog osiguranja (健康保険証記号番号): Simbol plus broj. Format zavisi od osiguravaca. Nacionalno zdravstveno osiguranje (国民健康保険) i Drustveno upravljano osiguranje (協会けんぽ) koriste razlicite formate.

Kartica boravka (在留カード番号): Za strane rezidente. Dva slova, osam cifara, dva slova. Ministarstvo pravde izdaje ovu karticu.

Pravilo anonimizacije prema APPI-ju

APPI ima strog standard anonimizovanih podataka pod nazivom anonimizovane informacije (匿名加工情報). On ide dalje od GDPR-a u jednoj kljucnoj oblasti. Anonimizacija mora biti proverljiva od strane trecih lica i tehnicki nepovratna.

Radi uskladjenosti, organizacija mora:

  1. Ukloniti sve direktne identifikatore, ukljucujuci My Number.
  2. Obraditi sve kombinacije kvazi-identifikatora.
  3. Koristiti k-anonimnost ili slicnu metodu.
  4. Objaviti opsti opis preduzetih koraka.
  5. Nikada ne pokusavati ponovo identifikovati podatke.

Smernice PPC-a za VI iz 2024. dodaju specificno pravilo. Ako trenirate VI na anonimizovanim podacima, ne mozete koristiti taj model za ponovnu identifikaciju osoba. Ovo je direktna zabrana napada inverzijom modela na APPI skupove za obuku.

Da biste ispunili standarde PPC-a, potrebne su vam cetiri stvari. Prvo, Verhoeff validacija za detekciju My Number. Drugo, japanski NER koristeci ja_core_news uz pravilnu tokenizaciju. Trece, podudaranje imena kroz Kanji, Kana i Romaji. Cetvrto, provere kodova prefekture za vozacke dozvole.

Indija koristi Aadhaar, koji takodje zahteva Verhoeff validaciju. Vodic za tehnicku uskladjenost sa indijskim DPDPA pokriva to detaljno. Za detekciju identifikatora vise zemalja, pogledajte detekciju EU nacionalnih poreskih ID-ova prema GDPR-u.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.