Die Personal Information Protection Commission (PPC) Japans gab 2024 45 Durchsetzungsentscheidungen bekannt und veröffentlichte die erste KI-spezifische Datenschutzrichtlinie Japans. Die technische Bewertung der PPC 2024 ergab, dass 63 % der generischen NLP-Tools, die für die Verarbeitung japanischer Dokumente eingesetzt werden, My Number (マイナンバー) – die 12-stellige nationale Identifikationsnummer Japans – nicht genau erkennen können. Für Organisationen mit Aktivitäten in Japan oder die Daten japanischer Staatsangehöriger verarbeiten, schafft diese Lücke direkte Risiken für die Einhaltung des APPI.
My Number: Die Verhoeff-Validierungsherausforderung
Das individuelle Nummernsystem Japans (マイナンバー制度, My Number System) weist jedem Einwohner Japans (1,36 Milliarden Nutzer) eine einzigartige 12-stellige Nummer zu. My Number wird verwendet für:
- Steuerverwaltung (Steuererklärungen, Lohnsteuerbescheinigungen)
- Soziale Sicherheit (Renten-, Krankenversicherungsanmeldungen)
- Katastrophenhilfe (Identifikation in Notfällen)
Verhoeff-Algorithmus: Die Prüfziffer von My Number verwendet den Verhoeff-Algorithmus – einen gruppentheoretischen Fehlererkennungsalgorithmus, der alle einstelligen Fehler und alle benachbarten Transpositionsfehler erkennen kann. Der Algorithmus verwendet drei Nachschlagetabellen: eine Dihedralgruppen-Multiplikationstabelle (D5), eine Inversetabelle und eine Permutationstabelle.
Die Verhoeff-Implementierung erfordert die Pflege dieser drei Tabellen und die Anwendung einer Sequenz von Nachschlägen. Im Gegensatz zum Luhn-Algorithmus (einfache modulare Arithmetik) kann Verhoeff nicht mental berechnet werden – es erfordert eine programmatische Implementierung.
Warum das für die PII-Erkennung wichtig ist:
- Das 12-stellige Format von My Number entspricht vielen Referenznummern in japanischen Dokumenten
- Ohne Verhoeff-Validierung erzeugen Tools massive Fehlalarme aus Rechnungsnummern, Dokumentreferenzcodes und Datums-Zeit-Sequenzen
- Tools, die nur grundlegende modulare Prüfziffern (Modulo 10 oder 11) implementieren, können My Number nicht validieren und werden Zahlen übersehen, die Verhoeff zur Überprüfung benötigen
Die Bewertung der PPC 2024 ergab, dass 63 % der eingesetzten Tools entweder Musterabgleich ohne Validierung durchführen oder einfachere modulare Prüfungen implementieren – was gleichzeitig Fehlalarme und Fehlermeldungen erzeugt.
Japanische Schrift: Die Drei-System-Herausforderung
Japanischer Text verwendet gleichzeitig drei Schriftsysteme:
Hiragana (ひらがな): Phonetisches Silbenalphabet, das für grammatische Partikel, Verbkonjugationsendungen und einheimische japanische Wörter verwendet wird. 46 Grundzeichen.
Katakana (カタカナ): Phonetisches Silbenalphabet, das für ausländische Wörter, technische Begriffe und Betonung verwendet wird. 46 Grundzeichen. Ausländische Namen werden in Japan typischerweise in Katakana geschrieben.
Kanji (漢字): Logografische Zeichen, die aus dem Chinesischen abgeleitet sind und für Nomen, Verbstämme und Namen verwendet werden. Japanisch verwendet etwa 2.000 gängige Kanji.
Kodierung japanischer Namen: Der Name einer einzelnen japanischen Person kann in erscheinen:
- Kanji-Form: 田中太郎
- Hiragana (phonetische Anleitung, furigana): たなかたろう
- Katakana (als ausländischer Inhalt): タナカ タロウ
- Romaji (lateinische Schrift): Tanaka Taro oder TANAKA Taro (für internationale Dokumente)
Ein PII-Tool muss alle vier Formen desselben Namens erkennen – oder riskieren, die Mehrheit der Namensvorkommen in japanischen Dokumenten zu übersehen.
Japanische nationale Identifikatoren über My Number hinaus
Führerscheinnummer (運転免許証番号): 12 Ziffern, die mit einem 2-stelligen Präfekturcode beginnen (10 für Tokio, 62 für Osaka usw.). Präfekturcodes ermöglichen die geografische Validierung der Lizenznummer.
Japanischer Reisepass (旅券番号): Standard ICAO-Format – 2 Buchstaben gefolgt von 7 Ziffern. Japan-spezifische Buchstabenkombinationen folgen den Ausgabekonventionen.
Krankenversicherungszertifikatnummer (健康保険証記号番号): Versicherungszeichen + Nummer, das je nach Versicherer variiert (Japan hat mehrere Krankenversicherungsprogramme für verschiedene Beschäftigungskategorien). Die allgemeine Versicherung (国民健康保険) unterscheidet sich von der gesellschaftlich verwalteten Versicherung (協会けんぽ).
Aufenthaltskartenummer (在留カード番号): Für ausländische Bewohner – Format 2 Buchstaben + 8 Ziffern + 2 Buchstaben, ausgestellt vom Justizministerium.
APPI's Standard für anonymisierte Informationen
Das APPI Japans schafft einen strengeren Anonymisierungsstandard als die GDPR auf eine spezifische Weise: Der Standard für "anonymisierte Informationen" (匿名加工情報) verlangt, dass die Anonymisierung von Dritten überprüfbar und technisch irreversibel ist. Organisationen, die anonymisierte Datensätze erstellen, müssen:
- Alle direkten Identifikatoren (einschließlich My Number) löschen oder ersetzen
- Alle Kombinationen von Quasi-Identifikatoren ansprechen
- k-Anonymität oder eine gleichwertige Technik anwenden
- Die ergriffenen Maßnahmen veröffentlichen (allgemeine Beschreibung, ohne spezifische Implementierungsdetails preiszugeben)
- Nicht versuchen, die anonymisierten Daten wieder zu identifizieren
Die KI-Richtlinien der PPC 2024 fügen hinzu: Organisationen, die anonymisierte Datensätze für das KI-Training verwenden, dürfen das resultierende KI-Modell nicht verwenden, um zu versuchen, Einzelpersonen aus den Trainingsdaten wieder zu identifizieren – ein ausdrückliches Verbot von Modellinversionsangriffen gegen APPI-anonymisierte Trainingssätze.
Für die APPI-konforme Verarbeitung: My Number mit Verhoeff-Validierung, NER in japanischer Sprache unter Verwendung von spaCy ja_core_news mit japanischer Tokenisierung, multi-skriptliche Namenskennung über Kanji/Kana/Romaji-Formen und Validierung des Führerscheinspräfekturcodes sind die technische Grundlage für die Einhaltung der PPC.
Quellen: