By · Last updated 2026-06-05

Bloga DönGDPR & Uyumluluk

Japonya My Number: Verhoeff ve APPI

Japonca belgelerde My Number tespiti konusunda genel araçların yüzde 63'ü başarısız oluyor. My Number, Verhoeff algoritmasını kullanmaktadır — Asya'daki ulusal kimlik numaraları arasında en karmaşık sağlama toplamı algoritması.

June 5, 20268 dk okuma
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japonya Kişisel Bilgilerin Korunması Komisyonu (PPC), 2024 yılında 45 icra kararı verdi ve Japonya'nın yapay zekâya özgü ilk gizlilik rehberini yayımladı. PPC'nin 2024 teknik değerlendirmesi, Japonca belge işleme için kullanılan genel NLP araçlarının yüzde 63'ünün My Number'ı (マイナンバー) — Japonya'nın 12 haneli ulusal kimlik numarasını — doğru biçimde tespit edemediğini ortaya koydu. Japonya operasyonları olan veya Japon vatandaşlarının verilerini işleyen kuruluşlar için bu açık, doğrudan APPI uyum riskine yol açmaktadır.

My Number: Verhoeff Doğrulama Zorluğu

Japon Bireysel Numara Sistemi (マイナンバー制度, My Number Sistemi), Japonya'da ikamet eden her kişiye (1,36 milyar kullanıcı) benzersiz bir 12 haneli numara atar. My Number şu amaçlarla kullanılmaktadır:

  • Vergi yönetimi (vergi beyannameleri, stopaj bildirimleri)
  • Sosyal güvenlik (emeklilik, sağlık sigortası kaydı)
  • Afet müdahalesi (acil durumlarda kimlik tespiti)

Verhoeff algoritması: My Number'ın denetim basamağı, Verhoeff algoritmasını kullanır — tüm tek basamaklı hataları ve tüm bitişik yer değiştirme hatalarını tespit edebilen grup teoriye dayalı bir hata algılama algoritmasıdır. Algoritma üç arama tablosu kullanır: dihedral grup çarpım tablosu (D5), ters tablo ve permütasyon tablosu.

Verhoeff uygulaması, bu üç tablonun korunmasını ve bir dizi aramanın uygulanmasını gerektirir. Luhn algoritmasının (basit modüler aritmetik) aksine Verhoeff, zihinsel olarak hesaplanamaz — programatik bir uygulama zorunludur.

Bunun KKB tespiti açısından önemi:

  • My Number'ın 12 haneli biçimi, pek çok Japonca belge referans numarasıyla örtüşmektedir
  • Verhoeff doğrulaması olmadan araçlar, fatura numaraları, belge referans kodları ve tarih-saat dizilerinden kaynaklanan yüksek miktarda yanlış pozitif üretmektedir
  • Yalnızca temel modüler denetim basamaklarını (modulo 10 veya 11) uygulayan araçlar My Number'ı doğrulayamaz ve Verhoeff gerektiren numaraları kaçırır

PPC'nin 2024 değerlendirmesi, kullanılan araçların yüzde 63'ünün ya doğrulama yapmaksızın desen eşleştirdiğini ya da daha basit modüler kontroller uyguladığını ortaya koydu — bu durum eş zamanlı olarak hem yanlış pozitif hem de yanlış negatif üretmektedir.

Japonca Metin: Üç Yazı Sistemi Zorluğu

Japonca metin, üç yazı sistemini eş zamanlı olarak kullanmaktadır:

Hiragana (ひらがな): Dilbilgisel ekler, fiil çekim sonları ve yerel Japonca kelimeler için kullanılan fonetik hece yazısı. 46 temel karakter içerir.

Katakana (カタカナ): Yabancı kelimeler, teknik terimler ve vurgu için kullanılan fonetik hece yazısı. 46 temel karakter içerir. Japonca'daki yabancı isimler genellikle Katakana ile yazılır.

Kanji (漢字): Çince'den türetilmiş, isimler, fiil kökleri ve özel isimler için kullanılan ideografik karakterler. Japonca'da yaklaşık 2.000 yaygın Kanji kullanılmaktadır.

Japonca isim kodlaması: Tek bir Japon kişinin adı şu biçimlerde görünebilir:

  • Kanji biçimi: 田中太郎
  • Hiragana (fonetik rehber, furigana): たなかたろう
  • Katakana (yabancı içerik olarak): タナカ タロウ
  • Romaji (Latin alfabesi): Tanaka Taro veya TANAKA Taro (uluslararası belgeler için)

Bir KKB aracının, Japonca belgelerdeki isim oluşumlarının büyük bölümünü kaçırmamak için aynı ismin dört biçimini de tanıması gerekmektedir.

My Number'ın Ötesinde Japon Ulusal Tanımlayıcıları

Sürücü belgesi numarası (運転免許証番号): 2 haneli il kodu (Tokyo için 10, Osaka için 62 vb.) ile başlayan 12 haneli numara. İl kodları, lisans numarasının coğrafi doğrulamasına olanak tanır.

Japon pasaportu (旅券番号): Standart ICAO biçimi — 2 harf ve ardından 7 rakam. Japonya'ya özgü harf kombinasyonları ihraç geleneklerini yansıtır.

Sağlık Sigortası Belgesi numarası (健康保険証記号番号): Sigorta sembolü ve numara biçimi, sigortacıya göre değişmektedir (Japonya'nın farklı istihdam kategorileri için birden fazla sağlık sigortası planı bulunmaktadır). Ulusal Sağlık Sigortası (国民健康保険), Topluluk Yönetimli Sigorta'dan (協会けんぽ) farklılık göstermektedir.

İkamet Kartı numarası (在留カード番号): Yabancı ikamet sahipleri için — Adalet Bakanlığı tarafından verilen 2 harf + 8 rakam + 2 harf biçiminde numara.

APPI'nin Anonim Bilgi Standardı

Japonya'nın APPI, belirli bir konuda GDPR'a kıyasla daha sıkı bir anonimleştirme standardı oluşturmaktadır: "anonimleştirilmiş bilgi" (匿名加工情報) standardı, anonimleştirmenin üçüncü taraflarca doğrulanabilir ve teknik açıdan geri dönülemez olmasını zorunlu kılmaktadır. Anonimleştirilmiş veri kümeleri oluşturan kuruluşların şu adımları izlemesi gerekmektedir:

  1. My Number dahil tüm doğrudan tanımlayıcıları silmek veya değiştirmek
  2. Tüm dolaylı tanımlayıcı kombinasyonlarını ele almak
  3. k-anonimlik veya eşdeğer bir teknik uygulamak
  4. Alınan önlemleri kamuoyuyla paylaşmak (belirli uygulama ayrıntıları açıklanmaksızın genel tanım)
  5. Anonimleştirilmiş verileri yeniden tanımlamaya çalışmamak

PPC'nin 2024 yapay zekâ rehberi şunu da eklemektedir: eğitim için anonimleştirilmiş veri kümeleri kullanan kuruluşlar, ortaya çıkan yapay zekâ modelini eğitim verilerindeki bireyleri yeniden tanımlamak amacıyla kullanamaz — APPI kapsamında anonimleştirilmiş eğitim kümelerine yönelik model inversiyon saldırılarına ilişkin açık bir yasak.

APPI uyumlu işleme için: Verhoeff doğrulaması ile My Number tespiti, Japonca tokenizasyon kullanılarak spaCy ja_core_news ile Japonca NER, Kanji/Kana/Romaji biçimlerinde çok yazı sistemli isim tanıma ve sürücü belgesi il kodu doğrulaması, PPC uyumu için teknik taban çizgisini oluşturmaktadır.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.