By · Last updated 2026-06-06

Powrót do blogaGDPR i zgodność

Japoński My Number: algorytm Verhoeffa i APPI – przewodnik techniczny

63% narzędzi ogólnych nie wykrywa My Number w dokumentach japońskich. My Number używa algorytmu Verhoeffa – najbardziej złożonej krajowej sumy kontrolnej identyfikatora w Azji.

June 6, 20268 min czytania
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japoński My Number: APPI i weryfikacja Verhoeffa

Japońska Komisja Ochrony Danych Osobowych (PPC) wydała 45 decyzji egzekucyjnych w 2024 r. Opublikowała również pierwsze japońskie wytyczne dotyczące prywatności w zakresie AI. Badanie PPC wykazało, że 63% narzędzi NLP ogólnego zastosowania nie wykrywa My Number (マイナンバー) w japońskich plikach. Jeśli Twój zespół przetwarza dane rezydentów Japonii, ta luka oznacza bezpośrednie ryzyko naruszenia APPI.

Czym jest My Number

Japonia przyznaje każdemu rezydentowi unikalny 12-cyfrowy identyfikator. To właśnie My Number, element Systemu Numerów Indywidualnych (マイナンバー制度). Obejmuje podatki, emerytury, ubezpieczenie zdrowotne i reagowanie na katastrofy. Identyfikator ten stanowi dane wrażliwe w rozumieniu APPI. Do jego zbierania lub udostępniania niezbędna jest podstawa prawna.

Problem z weryfikacją Verhoeffa

My Number używa algorytmu Verhoeffa do obliczania cyfry kontrolnej. Verhoeff to metoda matematyczna wychwytująca wszystkie błędy jednocyfrowe. Wychwytuje też wszystkie błędy polegające na zamianie dwóch sąsiednich cyfr. Wymaga trzech tablic przeglądowych. Nie można obliczyć go ręcznie. Wymaga kodu programistycznego.

Ma to znaczenie z dwóch powodów. Po pierwsze, japoński format 12-cyfrowy przypomina wiele innych kodów. Numery referencyjne faktur, identyfikatory dokumentów i ciągi dat mają ten sam format. Bez weryfikacji Verhoeffa narzędzie będzie zaznaczać błędne wartości. Po drugie, większość narzędzi nie korzysta z Verhoeffa. Stosują prostsze sumy kontrolne modulo 10 lub modulo 11. Te metody nie działają w tym przypadku.

Badanie PPC wykazało, że 63% narzędzi albo pomija weryfikację, albo stosuje prostszą metodę. Oba problemy występują jednocześnie: fałszywe wyniki pozytywne i fałszywe wyniki negatywne.

Algorytm Luhna, stosowany dla kart kredytowych, jest prostszy. My Number nie używa Luhna. Narzędzia zbudowane dla Luhna nie zadziałają.

Trzy systemy pisma, jedna nazwa

Japoński tekst używa jednocześnie trzech systemów pisma. Narzędzie musi obsługiwać wszystkie trzy.

Hiragana (ひらがな): Stosowana dla gramatyki i rodzimych słów. 46 podstawowych znaków.

Katakana (カタカナ): Stosowana dla słów obcego pochodzenia i imion. 46 podstawowych znaków. Imiona cudzoziemców w Japonii zapisywane są tym pismem.

Kanji (漢字): Symbole dla rzeczowników i imion. Około 2 000 jest w powszechnym użyciu.

Imię jednej osoby może pojawić się w czterech formach: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) i Romaji (Tanaka Taro). Narzędzie musi dopasowywać wszystkie cztery. Jeśli pominie jedną, pominie większość rekordów tej osoby.

Inne japońskie identyfikatory do wykrycia

Prawo jazdy (運転免許証番号): 12 cyfr. Pierwsze dwie cyfry wskazują prefekturę. Tokio to 10. Osaka to 62. Umożliwia to narzędziu weryfikację, czy wartość jest prawidłowa dla danego regionu.

Paszport (旅券番号): Dwie litery i siedem cyfr. Format ICAO. Japonia używa określonych par liter.

Karta ubezpieczenia zdrowotnego (健康保険証記号番号): Symbol i numer. Format zależy od ubezpieczyciela. Krajowe ubezpieczenie zdrowotne (国民健康保険) i ubezpieczenie zarządzane przez towarzystwa (協会けんぽ) używają różnych formatów.

Karta pobytu (在留カード番号): Dla cudzoziemców zamieszkałych w Japonii. Dwie litery, osiem cyfr, dwie litery. Karta wydawana jest przez Ministerstwo Sprawiedliwości.

Zasada anonimizacji w APPI

APIJ ma rygorystyczny standard anonimizowanych danych zwany „informacjami zanonimizowanymi” (匿名加工情報). W jednym kluczowym obszarze wykracza poza RODO. Anonimizacja musi być weryfikowalna przez osoby trzecie i technicznie nieodwracalna.

Dla zachowania zgodności organizacja musi:

  1. Usunąć wszystkie bezpośrednie identyfikatory, w tym My Number.
  2. Obsłużyć wszystkie kombinacje quasi-identyfikatorów.
  3. Zastosować k-anonimizację lub podobną metodę.
  4. Opublikować ogólny opis podjętych kroków.
  5. Nigdy nie próbować ponownej identyfikacji danych.

Wytyczne PPC dotyczące AI z 2024 r. dodają konkretną zasadę. Jeśli trenujesz AI na zanonimizowanych danych, nie możesz użyć tego modelu do ponownej identyfikacji osób. To bezpośredni zakaz ataków inwersji modelu na zbiory treningowe objęte APPI.

Dla spełnienia standardów PPC potrzebne są cztery elementy. Po pierwsze, weryfikacja Verhoeffa do wykrywania My Number. Po drugie, japoński NER z użyciem ja_core_news z właściwą tokenizacją. Po trzecie, dopasowywanie imion w Kanji, Kanie i Romaji. Po czwarte, weryfikacja kodu prefektury dla praw jazdy.

Indie używają Aadhaaru, który również wymaga walidacji Verhoeffa. Przewodnik po technicznej zgodności z indyjską DPDPA omawia to szczegółowo. W przypadku wykrywania identyfikatorów z wielu krajów zapoznaj się z przewodnikiem Wykrywanie unijnych numerów identyfikacji podatkowej zgodnie z RODO.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.