Japan PPC i APPI: Uskladjenost podataka za AI obuku
Japanska PPC primenjuje APPI. Amandmani iz 2022. promenili su zakon vise nego ikad pre. Dodali su pravila za pseudonimizovane podatke, prekogranicne prenose i skupove podataka za obuku AI. PPC je izdao 45 odluka u 2024. godini. Te godine objavio je i prvi japanski AI vodic za zastitu privatnosti.
Ako vasa kompanija trenira modele na japanskim tekstovima ili cuva japanske korisnicke podatke, ova pravila se primenjuju odmah.
Sta su amandmani iz 2022. promenili
2,4 miliona japanskih kompanija moralo je da azurira pravila o privatnosti i preradi postupke obrade.
Pseudonimizovani podaci (仮名加工情報): Nova srednja kategorija. Pokriva licne podatke sa uklonjenim direktnim identifikatorima. Ponovna identifikacija je jos uvek moguca uz odgovarajuci kljuc. Ovi podaci mogu se prenositi unutar organizacije bez punog pristanka. Ne mogu ici trecim stranama. GDPR nema takvu kategoriju.
Anonimizovani podaci (匿名加工情報): Ponovna identifikacija mora biti tehnicki nemoguca. To mora potvrditi kvalifikovana treca strana. Japanski standard je visi od GDPR-a u ovom pogledu. GDPR cini takav pregled opcionalnim. APPI ga cini obaveznim.
Prekogranicni prenosi: Prenosi u druge drzave moraju ispuniti japanski standard zastite. PPC vodi listu odobrenih zemalja. EU je na toj listi.
Skupovi podataka za AI obuku: PPC smernice iz 2024. direktno su se bavile ovim pitanjem.
- Skupovi podataka za obuku moraju biti potpuno anonimizovani ili zasnovani na valjanoj pravnoj osnovi - obicno pristanku.
- Izuzetak za obradu primenjuje se samo ako model ne moze da identifikuje ljude iz svojih rezultata.
- LLM programeri koji treniraju na japanskim podacima preuzetim sa sajtova moraju pokazati valjanu osnovu za prikupljanje.
Za potpun pregled obaveza uskladjenosti prekogranicnih prenosa, pogledajte /legal/compliance.
My Number: japanski nacionalni ID
My Number (マイナンバー) je 12-cifreni nacionalni ID. Japan ga dodeljuje svim rezidentima. Strani drzavljani ga takodje dobijaju. Sistem funkcionise od 2016. godine. Pokriva porez, socijalnu zastitu i reagovanje na katastrofe.
Kako funkcionise kontrolna cifra: My Number koristi Verhoeff metodu. To je matematicka sema provere gresaka. Teze je izgraditi nego Luhn - metodu koja se koristi za svedski personnummer i kanadski SIN. Vecina evropskih ID-jeva koristi jednostavniju modularnu matematiku.
Zasto je detekcija teska: Skeniranje 12-cifrenih nizova promasis cilj. Datumi, postanski kodovi i sifre faktura izgledaju isto. Potrebna vam je kompletna Verhoeff logika da ih razlikujete. Jednostavni regex nije dovoljan.
PPC pregled iz 2024. imao je jasan nalaz. 63% generickh NLP alata ne uspeva da detektuje My Number u japanskim zapisima.
Pogledjte kako anonym.legal rukuje My Number na /entities.
Tri sistema pisanja istovremeno
Japanski koristi Hiraganu, Katakanu i Kanji istovremeno. Rimsko pismo pojavljuje se u nekim kontekstima. Isto ime moze izgledati razlicito u razlicitim zapisima. Alati napravljeni za tekst latinskog pisma ne rade na japanskom bez dodatne podrske.
Sta ovo znaci za detekciju imena:
- Japanski NER zahteva modele trenirane na japanskim tekstovima. Koristite spaCy ja_core_news.
- Japanski nema razmake izmedju reci. Razdvajanje reci je poseban korak koji zahteva alate svesne japanskog.
- Licna imena pojavljuju se u Kanjiju sa vodicima za citanje u Hiragani ili Katakani. Alati moraju uhvatiti oba oblika.
- Nazivi kompanija (会社名, 株式会社) zahtevaju pravila specificna za Japan.
Za NER kroz APAC jezike, pogledajte /docs/faq.
Drugi japanski ID formati
Vozacka dozvola: 12 cifara sa prefiksnim kodom za region izdavanja. Kodovi su fiksni - Tokio je 10, Osaka je 62. Deo regiona je proverljiv.
Pasose: Standardni ICAO format sa japanskim pravilima izdavanja.
Kartica zdravstvenog osiguranja (健康保険証): Simbol (記号) plus broj. Format varira u zavisnosti od osiguravaca.
Kartica boravka (在留カード): Za strane rezidente. Format: dva slova, osam cifara, dva slova. Ministarstvo pravde ih izdaje.
Status prenosa podataka Japan-EU
Japan i EU imaju uzajamnu adekvatnost od 2019. Licni podaci mogu se prenositi izmedju EU i Japana bez dodatnih koraka. Japan je jedna od retkih neevropskih drzava sa punom EU adekvatnoscu.
Sporazum pokriva standardne licne podatke. Osjetljivi zdravstveni i krivicni podaci zahtevaju dodatne zastite cak i pod adekvatnoscu. Kompanije koje prenose ove podatke moraju evidentirati dodatne korake koje koriste.
Preispitajte svoje obaveze prenosa na /security-compliance.
Vas japanski checklist uskladjenosti
Pocnite ovde ako rukujete japanskim licnim podacima:
- Detekcija My Number sa Verhoeff logikom kontrolne cifre.
- Japanski NER sa modelima treniranim na tekstu japanskog pisma - ne latinskim modelima.
- Podrska za Kanji, Hiragana i Katakana forme imena plus varijante vodica za citanje.
- Detekcija vozacke dozvole sa proverama koda regiona.
- Detekcija kartice boravka sa MOJ logikom formata.
- Detekcija kartice zdravstvenog osiguranja kroz varijante osiguravaca.
- Valjana pravna osnova za svaki skup podataka za AI obuku koji sadrzi licne podatke.
- Pregled trece strane za sve podatke klasifikovane kao anonimizovane pod APPI.
- Dodatne zastite za osjetljive podatke koji se prenose pod EU-Japan sporazumom o adekvatnosti.
Pogledjte /docs/glossary za definicije APPI termina koji se koriste u ovom vodicu.