Japonya Kişisel Bilgilerin Korunması Komisyonu (PPC), 2024 yılında 45 icra kararı verdi ve Japonya'nın yapay zekâya özgü ilk gizlilik rehberini yayımladı. PPC'nin 2024 teknik değerlendirmesi, Japonca belge işleme için kullanılan genel NLP araçlarının yüzde 63'ünün My Number'ı (マイナンバー) — Japonya'nın 12 haneli ulusal kimlik numarasını — doğru biçimde tespit edemediğini ortaya koydu. Japonya operasyonları olan veya Japon vatandaşlarının verilerini işleyen kuruluşlar için bu açık, doğrudan APPI uyum riskine yol açmaktadır.
My Number: Verhoeff Doğrulama Zorluğu
Japon Bireysel Numara Sistemi (マイナンバー制度, My Number Sistemi), Japonya'da ikamet eden her kişiye (1,36 milyar kullanıcı) benzersiz bir 12 haneli numara atar. My Number şu amaçlarla kullanılmaktadır:
- Vergi yönetimi (vergi beyannameleri, stopaj bildirimleri)
- Sosyal güvenlik (emeklilik, sağlık sigortası kaydı)
- Afet müdahalesi (acil durumlarda kimlik tespiti)
Verhoeff algoritması: My Number'ın denetim basamağı, Verhoeff algoritmasını kullanır — tüm tek basamaklı hataları ve tüm bitişik yer değiştirme hatalarını tespit edebilen grup teoriye dayalı bir hata algılama algoritmasıdır. Algoritma üç arama tablosu kullanır: dihedral grup çarpım tablosu (D5), ters tablo ve permütasyon tablosu.
Verhoeff uygulaması, bu üç tablonun korunmasını ve bir dizi aramanın uygulanmasını gerektirir. Luhn algoritmasının (basit modüler aritmetik) aksine Verhoeff, zihinsel olarak hesaplanamaz — programatik bir uygulama zorunludur.
Bunun KKB tespiti açısından önemi:
- My Number'ın 12 haneli biçimi, pek çok Japonca belge referans numarasıyla örtüşmektedir
- Verhoeff doğrulaması olmadan araçlar, fatura numaraları, belge referans kodları ve tarih-saat dizilerinden kaynaklanan yüksek miktarda yanlış pozitif üretmektedir
- Yalnızca temel modüler denetim basamaklarını (modulo 10 veya 11) uygulayan araçlar My Number'ı doğrulayamaz ve Verhoeff gerektiren numaraları kaçırır
PPC'nin 2024 değerlendirmesi, kullanılan araçların yüzde 63'ünün ya doğrulama yapmaksızın desen eşleştirdiğini ya da daha basit modüler kontroller uyguladığını ortaya koydu — bu durum eş zamanlı olarak hem yanlış pozitif hem de yanlış negatif üretmektedir.
Japonca Metin: Üç Yazı Sistemi Zorluğu
Japonca metin, üç yazı sistemini eş zamanlı olarak kullanmaktadır:
Hiragana (ひらがな): Dilbilgisel ekler, fiil çekim sonları ve yerel Japonca kelimeler için kullanılan fonetik hece yazısı. 46 temel karakter içerir.
Katakana (カタカナ): Yabancı kelimeler, teknik terimler ve vurgu için kullanılan fonetik hece yazısı. 46 temel karakter içerir. Japonca'daki yabancı isimler genellikle Katakana ile yazılır.
Kanji (漢字): Çince'den türetilmiş, isimler, fiil kökleri ve özel isimler için kullanılan ideografik karakterler. Japonca'da yaklaşık 2.000 yaygın Kanji kullanılmaktadır.
Japonca isim kodlaması: Tek bir Japon kişinin adı şu biçimlerde görünebilir:
- Kanji biçimi: 田中太郎
- Hiragana (fonetik rehber, furigana): たなかたろう
- Katakana (yabancı içerik olarak): タナカ タロウ
- Romaji (Latin alfabesi): Tanaka Taro veya TANAKA Taro (uluslararası belgeler için)
Bir KKB aracının, Japonca belgelerdeki isim oluşumlarının büyük bölümünü kaçırmamak için aynı ismin dört biçimini de tanıması gerekmektedir.
My Number'ın Ötesinde Japon Ulusal Tanımlayıcıları
Sürücü belgesi numarası (運転免許証番号): 2 haneli il kodu (Tokyo için 10, Osaka için 62 vb.) ile başlayan 12 haneli numara. İl kodları, lisans numarasının coğrafi doğrulamasına olanak tanır.
Japon pasaportu (旅券番号): Standart ICAO biçimi — 2 harf ve ardından 7 rakam. Japonya'ya özgü harf kombinasyonları ihraç geleneklerini yansıtır.
Sağlık Sigortası Belgesi numarası (健康保険証記号番号): Sigorta sembolü ve numara biçimi, sigortacıya göre değişmektedir (Japonya'nın farklı istihdam kategorileri için birden fazla sağlık sigortası planı bulunmaktadır). Ulusal Sağlık Sigortası (国民健康保険), Topluluk Yönetimli Sigorta'dan (協会けんぽ) farklılık göstermektedir.
İkamet Kartı numarası (在留カード番号): Yabancı ikamet sahipleri için — Adalet Bakanlığı tarafından verilen 2 harf + 8 rakam + 2 harf biçiminde numara.
APPI'nin Anonim Bilgi Standardı
Japonya'nın APPI, belirli bir konuda GDPR'a kıyasla daha sıkı bir anonimleştirme standardı oluşturmaktadır: "anonimleştirilmiş bilgi" (匿名加工情報) standardı, anonimleştirmenin üçüncü taraflarca doğrulanabilir ve teknik açıdan geri dönülemez olmasını zorunlu kılmaktadır. Anonimleştirilmiş veri kümeleri oluşturan kuruluşların şu adımları izlemesi gerekmektedir:
- My Number dahil tüm doğrudan tanımlayıcıları silmek veya değiştirmek
- Tüm dolaylı tanımlayıcı kombinasyonlarını ele almak
- k-anonimlik veya eşdeğer bir teknik uygulamak
- Alınan önlemleri kamuoyuyla paylaşmak (belirli uygulama ayrıntıları açıklanmaksızın genel tanım)
- Anonimleştirilmiş verileri yeniden tanımlamaya çalışmamak
PPC'nin 2024 yapay zekâ rehberi şunu da eklemektedir: eğitim için anonimleştirilmiş veri kümeleri kullanan kuruluşlar, ortaya çıkan yapay zekâ modelini eğitim verilerindeki bireyleri yeniden tanımlamak amacıyla kullanamaz — APPI kapsamında anonimleştirilmiş eğitim kümelerine yönelik model inversiyon saldırılarına ilişkin açık bir yasak.
APPI uyumlu işleme için: Verhoeff doğrulaması ile My Number tespiti, Japonca tokenizasyon kullanılarak spaCy ja_core_news ile Japonca NER, Kanji/Kana/Romaji biçimlerinde çok yazı sistemli isim tanıma ve sürücü belgesi il kodu doğrulaması, PPC uyumu için teknik taban çizgisini oluşturmaktadır.
Kaynaklar: