Japanin PPC ja APPI: Tekoälykoulutusaineiston Vaatimustenmukaisuus
Japanin henkilötietosuojakomissio (PPC) valvoo APPI-lakia. Vuoden 2022 muutokset muuttivat lakia enemmän kuin mikään aiempi uudistus. Ne lisäsivät säännöt pseudonymisoiduille tietueille, rajat ylittäville siirroille ja tekoälykoulutusaineistoille. PPC antoi 45 ratkaisua vuonna 2024. Se julkaisi myös ensimmäisen Japani-spesifisen tekoälyn tietosuojaoppaan samana vuonna.
Jos yrityksesi kouluttaa malleja japaninkielisellä tekstillä tai hallussasi on japanilaisten käyttäjien tietueita, nämä säännöt koskevat sinua nyt.
Mitä Vuoden 2022 Muutokset Muuttivat
2,4 miljoonan japanilaisen yrityksen täytyi päivittää tietosuojasääntönsä ja tarkistaa käsittelymenettelynsä.
Pseudonymisoidut tiedot (仮名加工情報): Uusi väliluokka. Se kattaa henkilötietueet, joista suorat tunnisteet on poistettu. Uudelleentunnistaminen on silti mahdollista, jos avain on saatavilla. Nämä tietueet voivat liikkua organisaation sisällä ilman täyttä suostumusta. Ne eivät voi siirtyä kolmansille osapuolille. GDPR:ssä ei ole vastaavaa luokkaa.
Anonymisoidut tiedot (匿名加工情報): Uudelleentunnistamisen on oltava teknisesti mahdotonta. Pätevän kolmannen osapuolen on vahvistettava tämä. Japanin vaatimustaso on tässä asiassa korkeampi kuin GDPR:n. GDPR tekee kyseisestä arvioinnista vapaaehtoisen. APPI tekee siitä pakollisen.
Rajat ylittävät siirrot: Siirtojen muihin maihin on täytettävä Japanin suojeluvaatimukset. PPC ylläpitää listaa hyväksytyistä maista. EU on tuolla listalla.
Tekoälykoulutusaineistot: PPC:n vuoden 2024 ohjeet käsittelivät tätä suoraan.
- Koulutusaineistojen on oltava täysin anonymisoituja tai perustuttava lailliseen perusteeseen — yleensä suostumukseen.
- Käsittelypoikkeus koskee vain tilanteita, joissa malli ei pysty tunnistamaan henkilöitä tulosistaan.
- LLM-kehittäjien, jotka kouluttavat mallejaan verkkosivustoilta kerätyllä japanilaisella aineistolla, on osoitettava pätevä keräysperuste.
Kattavan katsauksen rajat ylittävien siirtojen velvoitteista löydät osoitteesta /legal/compliance.
My Number: Japanin Kansallinen Tunniste
My Number (マイナンバー) on 12-numeroinen kansallinen tunniste. Japani myöntää sen kaikille asukkaille. Myös ulkomaalaiset saavat sen. Järjestelmä on ollut käytössä vuodesta 2016. Se kattaa verotuksen, sosiaaliturvan ja katastrofivalmiuden.
Miten tarkistusnumero toimii: My Number käyttää Verhoeff-menetelmää. Se on matemaattiseen virheentarkistukseen perustuva järjestelmä. Se on monimutkaisempi rakentaa kuin Luhn-algoritmi, jota käytetään ruotsalaisessa henkilötunnuksessa ja kanadalaisessa SIN-numerossa. Useimmat eurooppalaiset tunnisteet käyttävät yksinkertaisempaa modulaarista matematiikkaa.
Miksi tunnistaminen on vaikeaa: 12-numeroisten merkkijonojen hakeminen ei riitä. Päivämäärät, postinumerot ja laskukoodit näyttävät samalta. Tarvitset täyden Verhoeff-logiikan erottamaan ne toisistaan. Yksinkertainen regex ei riitä.
PPC:n vuoden 2024 arviointi paljasti huolestuttavan tuloksen. 63 % yleiskäyttöisistä NLP-työkaluista epäonnistuu My Number -tunnuksen havaitsemisessa japanilaisissa asiakirjoissa.
Katso, miten anonym.legal käsittelee My Number -tunnuksen osoitteesta /entities.
Kolme Kirjoitusjärjestelmää Samanaikaisesti
Japaniksi käytetään hiragana-, katakana- ja kanji-kirjoitusjärjestelmiä samanaikaisesti. Joissain yhteyksissä esiintyy myös roomalaisia kirjaimia. Sama nimi voi näyttää erilaiselta eri tietueissa. Latinalaiselle tekstille rakennetut työkalut epäonnistuvat japanin kanssa ilman lisätukea.
Mitä tämä tarkoittaa nimien tunnistamisessa:
- Japanilainen NER tarvitsee japanilaisella tekstillä koulutettuja malleja. Käytä spaCy ja_core_news -mallia.
- Japanissa ei ole välilyöntejä sanojen välillä. Sanajako on oma vaiheensa. Se vaatii Japani-tietoisia työkaluja.
- Henkilönimet esiintyvät kanjilla, ja niiden lausumisohje on kirjoitettu hiraganalla tai katakanalla. Työkalujen on tunnistettava molemmat muodot.
- Yritysnimet (会社名, 株式会社) tarvitsevat Japani-spesifisiä sääntöjä.
NER:stä APAC-kielissä löydät lisätietoa osoitteesta /docs/faq.
Muut Japanilaiset Tunnistusmuodot
Ajokortti: 12-numeroinen numero, jossa on etuliitekoodi myöntämisalueelle. Koodit ovat kiinteitä — Tokio on 10, Osaka on 62. Alueosa on tarkistettavissa.
Passi: Vakio-ICAO-muoto Japanin erityisillä myöntämissäännöillä.
Sairausvakuutuskortti (健康保険証): Symboli (記号) plus numero. Muoto vaihtelee vakuuttajan mukaan.
Oleskelukortti (在留カード): Ulkomaisille asukkaille. Muoto: kaksi kirjainta, kahdeksan numeroa, kaksi kirjainta. Oikeusministeriö myöntää nämä.
Japanin ja EU:n Välinen Tiedonsiirtotilanne
Japanilla ja EU:lla on ollut molemminpuolinen riittävyys vuodesta 2019. Henkilötietueet voivat liikkua EU:n ja Japanin välillä ilman lisätoimia. Japani on yksi harvoista ei-eurooppalaisista maista, joilla on täysi EU:n riittävyysasema.
Sopimus kattaa tavalliset henkilötietueet. Arkaluontoiset terveys- ja rikoshistoriatietueet tarvitsevat lisäsuojatoimia myös riittävyyden puitteissa. Näitä tietueita siirtävien yritysten on kirjattava käyttämänsä lisätoimet.
Tarkista siirtovelvoitteesi osoitteesta /security-compliance.
Japanin Vaatimustenmukaisuuden Tarkistuslista
Aloita tästä, jos käsittelet japanilaisia henkilötietueita:
- My Number -tunnistus Verhoeff-tarkistunumerologiikalla.
- Japanilainen NER japaninkielisellä tekstillä koulutetuilla malleilla — ei latinalaisille kirjaimille tarkoitetuilla malleilla.
- Kanji-, hiragana- ja katakana-nimimuotojen tuki sekä lukuohjeitten variantit.
- Ajokortin tunnistus aluekooditarkistuksilla.
- Oleskelukortin tunnistus oikeusministeriön muotologiikalla.
- Sairausvakuutuskortin tunnistus vakuuttajavarianteissa.
- Laillinen peruste jokaiselle tekoälykoulutusaineistolle, joka sisältää henkilötietueita.
- Kolmannen osapuolen arviointi APPI:n mukaisesti anonymisoiduiksi luokitelluille tietueille.
- Lisäsuojatoimet arkaluontoisille tietueille, jotka siirretään EU:n ja Japanin riittävyyssopimuksen puitteissa.
APPI-termien määritelmät löydät osoitteesta /docs/glossary.