anonym.legal

By · Last updated 2026-06-05

Πίσω στο BlogGDPR & Συμμόρφωση

Ιαπωνία My Number: Αλγόριθμος Verhoeff & APPI

Το 63% των γενικών εργαλείων αποτυγχάνει στην ανίχνευση My Number σε ιαπωνικά έγγραφα. Το My Number χρησιμοποιεί τον αλγόριθμο Verhoeff — τον πιο σύνθετο αλγόριθμο ελέγχου εθνικής ταυτότητας στην Ασία.

June 5, 20268 λεπτά ανάγνωσης
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Η Επιτροπή Προστασίας Προσωπικών Πληροφοριών της Ιαπωνίας (PPC) εξέδωσε 45 αποφάσεις επιβολής το 2024 και δημοσίευσε τις πρώτες κατευθυντήριες γραμμές της Ιαπωνίας για απόρρητο σχετικά με ΤΝ. Η τεχνική αξιολόγηση της PPC για το 2024 διαπίστωσε ότι το 63% των γενικών εργαλείων NLP που χρησιμοποιούνται για ιαπωνική επεξεργασία εγγράφων αποτυγχάνει να ανιχνεύσει με ακρίβεια το My Number (マイナンバー) — τον 12ψήφιο εθνικό αριθμό ταυτοποίησης της Ιαπωνίας. Για οργανισμούς με δραστηριότητα στην Ιαπωνία ή επεξεργασία δεδομένων Ιαπώνων πολιτών, αυτό το κενό δημιουργεί άμεση έκθεση σε παραβίαση του APPI.

My Number: Η Πρόκληση Επικύρωσης Verhoeff

Το Ιαπωνικό Σύστημα Ατομικού Αριθμού (マイナンバー制度, My Number System) αποδίδει έναν μοναδικό 12ψήφιο αριθμό σε κάθε κάτοικο Ιαπωνίας (1,36 δισ. χρήστες). Το My Number χρησιμοποιείται για:

  • Φορολογική διαχείριση (φορολογικές δηλώσεις, βεβαιώσεις παρακράτησης)
  • Κοινωνική ασφάλιση (σύνταξη, εγγραφή σε ασφάλιση υγείας)
  • Διαχείριση καταστροφών (ταυτοποίηση σε έκτακτες ανάγκες)

Αλγόριθμος Verhoeff: Το ψηφίο ελέγχου του My Number χρησιμοποιεί τον αλγόριθμο Verhoeff — έναν αλγόριθμο ανίχνευσης σφαλμάτων βασισμένο σε θεωρία ομάδων που εντοπίζει όλα τα σφάλματα μονού ψηφίου και όλα τα σφάλματα μεταθέσεων γειτονικών ψηφίων. Ο αλγόριθμος χρησιμοποιεί τρεις πίνακες αναζήτησης: πίνακα πολλαπλασιασμού διεδρικής ομάδας (D5), πίνακα αντιστρόφων και πίνακα μεταθέσεων.

Η υλοποίηση Verhoeff απαιτεί τη διατήρηση αυτών των τριών πινάκων και την εφαρμογή μιας ακολουθίας αναζητήσεων. Σε αντίθεση με τον αλγόριθμο Luhn (απλή αρθμητική modular), ο Verhoeff δεν μπορεί να υπολογιστεί νοερά — απαιτεί προγραμματιστική υλοποίηση.

Γιατί αυτό έχει σημασία για την ανίχνευση PII:

  • Η 12ψήφια μορφή του My Number ταιριάζει με πολλούς αριθμούς αναφοράς σε ιαπωνικά έγγραφα
  • Χωρίς επικύρωση Verhoeff, τα εργαλεία παράγουν μαζικά ψευδώς θετικά από αριθμούς τιμολογίων, κωδικούς αναφοράς εγγράφων και ακολουθίες ημερομηνιών-ωρών
  • Εργαλεία που υλοποιούν μόνο βασικά modular ψηφία ελέγχου (modulo 10 ή 11) δεν μπορούν να επικυρώσουν το My Number

Η αξιολόγηση της PPC για το 2024 διαπίστωσε ότι το 63% των αναπτυγμένων εργαλείων είτε χρησιμοποιεί αντιστοίχιση προτύπου χωρίς επικύρωση είτε υλοποιεί απλούστερους αρθμητικούς ελέγχους — παράγοντας ταυτόχρονα ψευδώς θετικά και ψευδώς αρνητικά.

Ιαπωνική Γραφή: Η Πρόκληση των Τριών Συστημάτων

Τα ιαπωνικά κείμενα χρησιμοποιούν τρία συστήματα γραφής ταυτόχρονα:

Hiragana (ひらがな): Φωνητικό συλλαβάριο για γραμματικά σωματίδια, καταλήξεις ρημάτων και γηγενείς ιαπωνικές λέξεις. 46 βασικοί χαρακτήρες.

Katakana (カタカナ): Φωνητικό συλλαβάριο για ξένες λέξεις, τεχνικούς όρους και έμφαση. 46 βασικοί χαρακτήρες. Τα ξένα ονόματα στα ιαπωνικά γράφονται συνήθως σε Katakana.

Kanji (漢字): Λογογραφικοί χαρακτήρες κινεζικής καταγωγής, που χρησιμοποιούνται για ουσιαστικά, βάσεις ρημάτων και ονόματα. Στα ιαπωνικά χρησιμοποιούνται περίπου 2.000 κοινά Kanji.

Κωδικοποίηση ιαπωνικών ονομάτων: Το όνομα ενός Ιάπωνα μπορεί να εμφανίζεται σε:

  • Μορφή Kanji: 田中太郎
  • Hiragana (φωνητικός οδηγός, furigana): たなかたろう
  • Katakana (ως ξένο περιεχόμενο): タナカ タロウ
  • Romaji (λατινική γραφή): Tanaka Taro ή TANAKA Taro (για διεθνή έγγραφα)

Ενα εργαλείο PII πρέπει να αναγνωρίζει και τις τέσσερις μορφές του ίδιου ονόματος — διαφορετικά θα χάσει την πλειονότητα των εμφανίσεων ονομάτων σε ιαπωνικά έγγραφα.

Ιαπωνικοί Εθνικοί Αναγνωριστές Πέραν του My Number

Αριθμός άδειας οδήγησης (運転免許証番号): 12 ψηφία που αρχίζουν με 2ψήφιο κωδικό νομαρχίας (10 για Τόκιο, 62 για Οσάκα, κ.λπ.). Οι κωδικοί νομαρχίας επιτρέπουν γεωγραφική επικύρωση του αριθμού άδειας.

Ιαπωνικό διαβατήριο (旅券番号): Τυπική μορφή ICAO — 2 γράμματα ακολουθούμενα από 7 ψηφία. Οι ιαπωνικοί συνδυασμοί γραμμάτων ακολουθούν συμβάσεις έκδοσης.

Αριθμός Ασφαλιστικού Πιστοποιητικού Υγείας (健康保険証記号番号): Η μορφή ασφαλιστικού συμβόλου + αριθμού ποικίλλει ανά ασφαλιστή (η Ιαπωνία έχει πολλαπλά ασφαλιστικά σχήματα υγείας). Η Εθνική Ασφάλιση (国民健康保険) διαφέρει από την Ασφάλιση Διαχειριζόμενης Εταιρείας (協会けんぽ).

Αριθμός Κάρτας Διαμονής (在留カード番号): Για αλλοδαπούς κατοίκους — μορφή 2 γράμματα + 8 ψηφία + 2 γράμματα, εκδίδεται από το Υπουργείο Δικαιοσύνης.

Το Πρότυπο Ανωνυμοποιημένων Πληροφοριών κατά APPI

Το ιαπωνικό APPI θεσπίζει ένα αυστηρότερο πρότυπο ανωνυμοποίησης σε σχέση με τον ΓΚΠΔ σε ένα συγκεκριμένο σημείο: το πρότυπο «ανωνυμοποιημένων πληροφοριών» (匿名加工情報) απαιτεί η ανωνυμοποίηση να είναι επαληθεύσιμη από τρίτους και τεχνικά μη αναστρέψιμη. Οι οργανισμοί που δημιουργούν ανωνυμοποιημένα σύνολα δεδομένων πρέπει να:

  1. Διαγράφουν ή αντικαθιστούν όλους τους άμεσους αναγνωριστές (συμπεριλαμβανομένου του My Number)
  2. Αντιμετωπίζουν όλους τους συνδυασμούς ψευδο-αναγνωριστών
  3. Εφαρμόζουν k-ανωνυμία ή ισοδύναμη τεχνική
  4. Δημοσιεύουν τα μέτρα που ελήφθησαν (γενική περιγραφή, χωρίς αποκάλυψη λεπτομερειών υλοποίησης)
  5. Μην επιχειρούν επανα-ταυτοποίηση των ανωνυμοποιημένων δεδομένων

Οι κατευθυντήριες γραμμές ΤΝ της PPC για το 2024 προσθέτουν: οργανισμοί που χρησιμοποιούν ανωνυμοποιημένα σύνολα δεδομένων για εκπαίδευση ΤΝ δεν μπορούν να χρησιμοποιούν το προκύπτον μοντέλο ΤΝ για να επιχειρήσουν επανα-ταυτοποίηση ατόμων από τα δεδομένα εκπαίδευσης — ρητή απαγόρευση επιθέσεων αντιστροφής μοντέλου σε σύνολα εκπαίδευσης ανωνυμοποιημένα κατά APPI.

Για επεξεργασία συμβατή με APPI: το My Number με επικύρωση Verhoeff, η NER ιαπωνικής γλώσσας με spaCy ja_core_news και ιαπωνική tokenization, η αναγνώριση ονομάτων σε πολλαπλά συστήματα γραφής (Kanji/Kana/Romaji) και η επικύρωση κωδικού νομαρχίας αδειών οδήγησης αποτελούν την τεχνική βάση για συμμόρφωση με την PPC.

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.