Bloga DönGDPR & Uyumluluk

Japonya PPC: My Number Verhoeff Doğrulama ve APPI Uyumlu Japonca PII Tespiti

Japon belgelerinde My Number tespiti yapan genel araçların %63'ü başarısız oluyor. My Number, Asya'daki en karmaşık ulusal kimlik kontrolü olan Verhoeff algoritmasını kullanıyor. Japonca metin NER, özel dil modelleri gerektiriyor.

March 7, 20268 dk okuma
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japonya'nın Kişisel Bilgileri Koruma Komisyonu (PPC), 2024 yılında 45 yaptırım kararı aldı ve Japonya'nın ilk AI özel gizlilik kılavuzunu yayımladı. PPC'nin 2024 teknik değerlendirmesi, Japon belge işleme için kullanılan genel NLP araçlarının %63'ünün My Number (マイナンバー) — Japonya'nın 12 haneli ulusal kimlik numarasını doğru bir şekilde tespit edemediğini buldu. Japonya'da faaliyet gösteren veya Japon vatandaşlarının verilerini işleyen kuruluşlar için bu boşluk, doğrudan APPI uyum riski yaratmaktadır.

My Number: Verhoeff Doğrulama Zorluğu

Japonya'nın Bireysel Numarası Sistemi (マイナンバー制度, My Number System), Japonya'daki her sakine benzersiz bir 12 haneli numara atar (1.36 milyar kullanıcı). My Number, aşağıdaki alanlarda kullanılmaktadır:

  • Vergi yönetimi (vergi beyannameleri, kesinti bildirimleri)
  • Sosyal güvenlik (emeklilik, sağlık sigortası kaydı)
  • Afet yanıtı (acil durumlarda kimlik tespiti)

Verhoeff algoritması: My Number'ın kontrol rakamı, tüm tek haneli hataları ve tüm komşu transpozisyon hatalarını tespit edebilen grup teorisi tabanlı bir hata tespit algoritması olan Verhoeff algoritmasını kullanır. Algoritma, üç arama tablosu kullanır: bir dihedral grup çarpan tablosu (D5), bir ters tablo ve bir permütasyon tablosu.

Verhoeff uygulaması, bu üç tablonun korunmasını ve bir dizi arama işleminin uygulanmasını gerektirir. Luhn algoritmasından (basit modüler aritmetik) farklı olarak, Verhoeff zihinsel olarak hesaplanamaz — programatik bir uygulama gerektirir.

PII tespiti için neden bu önemlidir:

  • My Number'ın 12 haneli formatı, birçok Japon belge referans numarasıyla eşleşir
  • Verhoeff doğrulaması olmadan, araçlar fatura numaraları, belge referans kodları ve tarih-saat dizilerinden büyük yanlış pozitifler üretir
  • Sadece temel modüler kontrol rakamlarını (mod 10 veya 11) uygulayan araçlar, My Number'ı doğrulayamaz ve Verhoeff ile doğrulama gerektiren numaraları atlayacaktır.

PPC'nin 2024 değerlendirmesi, kullanılan araçların %63'ünün ya doğrulama olmadan kalıp eşleştirdiğini ya da daha basit modüler kontroller uyguladığını — aynı anda yanlış pozitifler ve yanlış negatifler ürettiğini buldu.

Japonca Yazı: Üç Sistem Zorluğu

Japonca metin, aynı anda üç yazı sistemi kullanır:

Hiragana (ひらがな): Gramer parçacıkları, fiil çekim sonları ve yerli Japonca kelimeler için kullanılan fonetik hece alfabesi. 46 temel karakter.

Katakana (カタカナ): Yabancı kelimeler, teknik terimler ve vurgular için kullanılan fonetik hece alfabesi. 46 temel karakter. Japonca'daki yabancı isimler genellikle Katakana ile yazılır.

Kanji (漢字): İsimler, fiil kökleri ve isimler için kullanılan, Çince kökenli logografik karakterler. Japonca, yaklaşık 2,000 yaygın Kanji kullanır.

Japonca isim kodlaması: Tek bir Japon kişinin ismi aşağıdaki şekillerde görünebilir:

  • Kanji formu: 田中太郎
  • Hiragana (fonetik kılavuz, furigana): たなかたろう
  • Katakana (yabancı içerik olarak): タナカ タロウ
  • Romaji (Latin alfabesi): Tanaka Taro veya TANAKA Taro (uluslararası belgeler için)

Bir PII aracı, aynı ismin tüm dört formunu tanımalıdır — aksi takdirde Japon belgelerinde isim geçişlerinin çoğunu atlama riski taşır.

My Number Dışındaki Japon Ulusal Tanımlayıcılar

Sürücü belgesi numarası (運転免許証番号): 2 haneli bir il kodu (Tokyo için 10, Osaka için 62, vb.) ile başlayan 12 haneli numara. İl kodları, lisans numarasının coğrafi doğrulamasını sağlar.

Japon pasaportu (旅券番号): Standart ICAO formatı — 2 harf ve ardından 7 haneli sayı. Japonya'ya özgü harf kombinasyonları, verilme geleneklerine uyar.

Sağlık Sigortası Sertifikası numarası (健康保険証記号番号): Sigorta sembolü + numara formatı, sigorta şirketine göre değişiklik gösterir (Japonya'nın farklı istihdam kategorileri için birden fazla sağlık sigortası şeması vardır). Genel Sigorta (国民健康保険), Dernek Yönetimli Sigorta'dan (協会けんぽ) farklıdır.

İkamet Kartı numarası (在留カード番号): Yabancı sakinler için — format 2 harf + 8 haneli sayı + 2 harf, Adalet Bakanlığı tarafından verilir.

APPI'nin Anonimleştirilmiş Bilgi Standardı

Japonya'nın APPI'si, bir özel şekilde GDPR'dan daha katı bir anonimleştirme standardı oluşturur: "anonimleştirilmiş bilgi" (匿名加工情報) standardı, anonimleştirmenin üçüncü tarafça doğrulanabilir ve teknik olarak geri döndürülemez olmasını gerektirir. Anonimleştirilmiş veri setleri oluşturan kuruluşlar:

  1. Tüm doğrudan tanımlayıcıları (My Number dahil) silmeli veya değiştirmelidir
  2. Tüm yarı tanımlayıcı kombinasyonlarını ele almalıdır
  3. k-anonimlik veya eşdeğer bir teknik uygulamalıdır
  4. Alınan önlemleri yayımlamalıdır (genel tanım, belirli uygulama detaylarını ifşa etmeden)
  5. Anonimleştirilmiş verileri yeniden tanımlamaya çalışmamalıdır

PPC'nin 2024 AI kılavuzu ekliyor: anonimleştirilmiş veri setlerini AI eğitimi için kullanan kuruluşlar, eğitim verilerinden bireylerin yeniden tanımlanması için elde edilen AI modelini kullanamazlar — APPI-anonimleştirilmiş eğitim setlerine karşı model tersine çevirme saldırılarına açık bir yasak.

APPI uyumlu işleme için: Verhoeff doğrulaması ile My Number, Japonca tokenizasyon ile spaCy ja_core_news kullanarak Japonca dil NER, Kanji/Kana/Romaji formlarında çoklu yazı sistemi isim tanıma ve sürücü belgesi il kodu doğrulaması, PPC uyumu için teknik temel oluşturmaktadır.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.