Japonsky PPC a APPI: Suladnost AI trenovacich dat
Japonsky urad PPC presadzuje zakon APPI. Novely z roku 2022 zmenili tento zakon viac ako akakolvek predchadzajuca aktualizacia. Zaviedli pravidla pre pseudonymizovane zaznamy, cezhranicne prenosy a AI trenovacie sady. PPC vydal v roku 2024 celkom 45 rozhodnutí. V tom istom roku publikoval aj prvu japonsku prirucku o ochrane sukromia v suvislosti s AI.
Ak vasa firma trenuje modely na japonskych textoch alebo uchováva záznamy japonskych pouzivatelov, tieto pravidla sa na vas vztahuju uz teraz.
Co zmenili novely z roku 2022
2,4 miliona japonskych firiem muselo aktualizovat pravidla ochrany sukromia a prepracovat procesy spracovania dat.
Pseudonymizovane informacie (仮名加工情報): Nova stredna kategoria. Pokryva osobne zaznamy, z ktorych boli odstranene priame identifikatory. Opätovna identifikacia je stale mozna, ak máte kluc. Tieto zaznamy mozu cirkulovat v ramci organizacie bez uplneho suhlasu, ale nesmú byt postúpene tretím stranám. GDPR takúto kategoriu nepozna.
Anonymizovane informacie (匿名加工情報): Opätovna identifikacia musi byt technicky nemozna. Potvrdit to musi kvalifikovana tretia strana. Japonske poziadavky su v tomto bode przeísnejsie ako GDPR. GDPR takéto overenie nepovinuje, APPI ano.
Cezhranicne prenosy: Prenosy do inych staci musia splnat japonskú úroven ochrany. PPC vedie zoznam schvalenych krajin. EÚ je na tomto zozname.
AI trenovacie sady: Usmernenie PPC z roku 2024 sa touto témou zaoberá priamo.
- Trenovacie sady musia byt uplne anonymizovane alebo musí existovat platny pravny zaklad — zvycajne suhlas.
- Vynimka pre spracovanie platí len vtedy, ked model nie je schopny identifikovat osoby zo svojich vystupov.
- Vyvojari LLM trenovani na japonskych zaznamoch zozbieranych z webovych stranok musia preukázat platny zaklad zberu.
Komplexny prehlad povinnosti pri cezhranicnom zdielani dat najdete na /legal/compliance.
My Number: Japonske narodne identifikacne cislo
My Number (マイナンバー) je 12-miestne narodne ID. Japonsko ho vydáva vsem obyvatelom vrátane cudzincov. System funguje od roku 2016. Pokryva dane, socialne zabezpecenie a zariadenia pre prípady katastrofy.
Ako funguje kontrolná cifra: My Number pouzíva Verhoeffovu metodu. Je to matematická schéma overovania chyb. Je zlozitejsia na implementaciu ako Luhn — metoda pouzivana pre svédske personnummer a kanadske SIN. Väcsina európskych ID pouzíva jednoduchsiu modulárnu matematiku.
Preco je detekcia obtiazna: Vyhladávanie 12-cifernych retazcov nestaci. Datumy, postové smerovacie cisla aj cisla faktúr vyzeraju rovnako. Na ich rozlísenie potrebujete úplnu Verhoeffovu logiku. Jednoduché regulárne vyrazenia nestacia.
Prehladávanie PPC z roku 2024 prinieslo znepokojujúci záver. 63 % generickich NLP nástrojov nedokáze My Number v japonskych zaznamoch detekovať.
Spôsob, akym anonym.legal spracúva My Number, si pozrite na /entities.
Tri pisomne systémy naraz
Japoncina súbezne pouzíva hiraganu, katakanu a kandzi. V niektorych kontextoch sa objavuje aj latinska pisma. To iste meno moze mat v rôznych zaznamoch rôznu podobu. Nástroje urcené pre latinkovú abecedu v japonstine zlyhávajú bez dalšej podpory.
Co to znamená pre detekciu mien:
- Japonske NER potrebuje modely trénované na japonskych textoch. Pouzite spaCy ja_core_news.
- Japonstina nema medzery medzi slovami. Segmentácia slov je sama o sebe osobitny problem.
- Katakana sa pouzíva na transkripciu cudzích mien. Nástroj musí zvladnut aj tuto vrstvu.
Technické poziadavky APPI
Japonský rámec pre ochranu údajov vyzaduje konkrétne technické kroky.
Pre japonske zaznamy:
- Detekcia My Number s Verhoeffovou kontrolou — 12 cislic nestaci
- NER trenovany na japonskych textoch — nie iba transliterácia
- Anonymizácia schválená kvalifikovanou treťou stranou pre zdielanie dat
- Záznamy o prenosoch do zahranicí
Pre AI trenovacie sady:
- Právny zaklad (suhlas alebo zmluvné plnenie) zdokumentovany pred zozbieraním dat
- Výstupný test: model nesmie mat schopnost identifikovát osoby
- Uchovávajte záznamy o filtrovaní pocas najmenej 3 rokov
Súlad s APPI krok za krokom
Kroky k suladnosti pre firmy spracúvajúce japonské osobné údaje:
- Klasifikácia: Urcite, ci pracujete s pseudonymizovanými alebo anonymizovanými informáciami. Kazda kategória má iné pravidlá.
- Detekcia My Number: Nasadte nastroje s Verhoeffovou validaciou. Overte ich na skutocnych japonskych testovacích súboroch.
- Japonsky NER: Pouzívajte modely trénované priamo na japonskych textoch — nie iba prekladovy vrstvy.
- Dokumentácia prenosov: Uchovávajte záznamy o každom cezhranicnom prenose vrátane právneho základu.
- Audit trenovacích sad: Pred trénovaním AI modelu overujte každú sadu.
PPC v roku 2024 vydal 45 rozhodnutí. Firmy, ktoré nevedia preukázat My Number detekciu a dokumentaciu anonymizacie, su vystavene pokutám.
Pozrite si, ako anonym.legal rieši japonskú suladnost: /legal/compliance.