Die Personal Information Protection Commission (PPC) Japans setzt das Gesetz zum Schutz personenbezogener Daten (APPI) durch, mit den 2022 vorgenommenen Änderungen, die den Schutz erheblich erweiterten, einschließlich neuer Bestimmungen für pseudonymisierte Informationen, Beschränkungen beim grenzüberschreitenden Transfer und die Verwaltung von KI-Trainingsdaten. Die PPC gab 2024 45 Durchsetzungsentscheidungen bekannt und veröffentlichte die erste Japan-spezifische KI-Datenschutzrichtlinie.
APPI 2022: Was sich geändert hat
Die Änderungen der APPI 2022 verlangen von 2,4 Millionen japanischen Unternehmen, die Datenschutzrichtlinien zu aktualisieren und neue Verfahrensweisen einzuführen:
Pseudonymisierte Informationen (仮名加工情報): Eine neue Kategorie – personenbezogene Daten, die verarbeitet wurden, um identifizierende Informationen zu entfernen, bei denen jedoch eine Re-Identifizierung theoretisch mit einem separaten Schlüssel möglich ist. Pseudonymisierte Informationen können intern ohne die gleichen Zustimmungsanforderungen wie personenbezogene Daten geteilt werden, dürfen jedoch nicht an Dritte weitergegeben werden. Dies schafft eine Japan-spezifische Mittelkategorie zwischen personenbezogenen Daten und anonymisierten Informationen.
Anonymisierte Informationen (匿名加工情報): Müssen so verarbeitet werden, dass eine Re-Identifizierung technisch unmöglich ist – verifiziert durch eine qualifizierte dritte Partei. Japans Anonymisierungsstandard ist in einem entscheidenden Punkt strenger als der der DSGVO: Die Überprüfung durch Dritte ist obligatorisch, nicht optional.
Grenzüberschreitende Übertragungen: Die Änderungen von 2022 verstärkten die Übertragungsbeschränkungen und verlangen, dass Übertragungen in Drittländer ein Schutzniveau bieten, das "äquivalent zu" den Standards Japans ist. Die PPC führt eine Liste genehmigter Länder. Die EU hat im Rahmen des APPI-Rahmens eine Angemessenheit mit Japan.
KI-Trainingsdaten: Die PPC gab 2024 Richtlinien heraus, die ausdrücklich KI-Trainingsdatensätze ansprechen. Wichtige Anforderungen:
- Personenbezogene Daten, die für das KI-Training verwendet werden, müssen entweder tatsächlich anonymisiert sein (nach dem strengen, von Dritten verifizierten Standard Japans) oder unter einer spezifischen Rechtsgrundlage verarbeitet werden (typischerweise Zustimmung)
- Die "Statistische Verarbeitungs-Ausnahme" in der APPI gilt für KI-Training nur, wenn das resultierende Modell nicht verwendet werden kann, um Einzelpersonen aus den Ausgaben zu identifizieren
- LLM-Unternehmen, die auf japanische personenbezogene Daten zugreifen, die von Websites gesammelt wurden, müssen eine legitime Grundlage für die Erhebung nachweisen
My Number: Japans nationale Identifikationsnummer
Japans My Number (マイナンバー) – offiziell die Individuelle Nummer (個人番号) – ist eine 12-stellige nationale Identifikationsnummer, die allen Einwohnern Japans, einschließlich ausländischer Staatsangehöriger, zugewiesen wird. Seit 2016 wurde My Number 1,36 Milliarden japanischen Einwohnern zugewiesen und wird für die Steuerverwaltung, soziale Sicherheit und Katastrophenhilfe verwendet.
Technische Struktur: My Number verwendet den Verhoeff-Algorithmus zur Berechnung der Prüfziffer – dasselbe komplexe gruppentheoretische Fehlererkennungsschema, das für Aadhaar in Indien verwendet wird. Dieser Algorithmus ist erheblich komplexer zu implementieren als der Luhn-Algorithmus (der für schwedische Personennummern, SIN verwendet wird) und die modulus-basierten Algorithmen, die von den meisten europäischen nationalen Identifikatoren verwendet werden.
Erkennung Herausforderungen:
- Generisches Muster-Matching von 12-stelligen Zahlen erzeugt massive falsch-positive Ergebnisse in japanischen Dokumenten (Daten, Postleitzahlen kombiniert mit Telefonnummern, Rechnungsnummern)
- Die Verhoeff-Validierung erfordert eine vollständige Implementierung der Gruppierungsoperationstabellen – keine einfache modulare Arithmetikberechnung
- My Number erscheint in japanischen Zeichen neben den Ziffern in einigen Dokumenten
Die technische Bewertung der PPC von 2024 ergab, dass 63 % der eingesetzten generischen NLP-Tools My Number in japanischen Dokumenten nicht genau erkennen.
Japanische Sprachverarbeitung: Die Schrift-Herausforderung
Japanischer Text verwendet gleichzeitig drei Schriftsysteme – Hiragana, Katakana und Kanji (chinesische Zeichen) – plus lateinische Schrift (Romaji) für einige Kontexte. Namen können in jeder Kombination dieser Schriften erscheinen, und derselbe Name kann in unterschiedlichen Kontexten unterschiedlich erscheinen.
NER-Herausforderungen, die spezifisch für Japanisch sind:
- Die Erkennung von Namen erfordert japanischsprachige Modelle (spaCy ja_core_news mit japanischer Tokenisierung)
- Japanisch verwendet keine Leerzeichen zwischen Wörtern – die Tokenisierung selbst ist ein eigener Verarbeitungsschritt, der japanischbewusste Tokenizer erfordert
- Personennamen werden typischerweise in Kanji mit Furigana (phonetische Anleitung in Hiragana/Katakana) geschrieben – Tools müssen sowohl die Kanji-Form als auch die phonetische Form erkennen
- Japanische Organisationsnamen (会社名, 株式会社) erfordern japanischspezifische Muster zur Erkennung von Organisationen
Weitere japanische Identifikatoren
Führerscheinnummer: 12-stelliges Format mit Präfekturcode-Präfix. Präfekturcodes sind standardisiert (Tokio = 10, Osaka = 62 usw.), was die Validierung der geografischen Komponente ermöglicht.
Japanischer Reisepass: Standard ICAO-Format mit japanischspezifischen Ausstellungsrichtlinien.
Krankenversicherungszertifikat (健康保険証): Versicherungssymbol (記号) + Nummernformat, mit aussteller-spezifischen Formatvariationen über Japans mehrere Krankenversicherungsprogramme hinweg.
Aufenthaltskarte (在留カード): Format für ausländische Einwohner – 2 Buchstaben + 8 Ziffern + 2 Buchstaben, mit MOJ-spezifischer Validierung.
Japan-EU-Datenübertragungsstatus
Japan und die EU haben gegenseitige Angemessenheitsentscheidungen – personenbezogene Daten fließen zwischen der EU und Japan, ohne dass zusätzliche Übertragungsmechanismen erforderlich sind. Diese bilaterale Vereinbarung (seit 2019 in Kraft) macht Japan zu einem der wenigen nicht-europäischen Länder mit voller EU-Angemessenheit.
Die gegenseitige Angemessenheit deckt standardmäßige geschäftliche personenbezogene Daten ab. Bestimmte Kategorien – sensible Gesundheitsdaten, Strafregister – erfordern zusätzliche Sicherheitsvorkehrungen, selbst unter der Angemessenheitsvereinbarung.
Für Organisationen, die japanische personenbezogene Daten verarbeiten: Die Erkennung der My Number mit Verhoeff-Validierung ist die technisch anspruchsvollste Anforderung, gefolgt von der Unterstützung der japanischen NER mit Modellen, die auf japanischsprachigen Texten trainiert wurden. Bilinguale japanisch/englische Verarbeitung wird zunehmend für multinationale Organisationen mit japanischen Aktivitäten erforderlich.
Quellen: