PPC del Japo i APPI: Compliment en Dades d'Entrenament d'IA
La PPC del Japo aplica l'APPI. Les esmenes del 2022 van ser la reforma mes important de la llei fins ara. Van afegir normes per a registres pseudonimitzats, transferencies transfrontereres i conjunts d'entrenament d'IA. La PPC va emetre 45 resolucions el 2024. Aquell any tambe va publicar la primera guia de privadesa d'IA especifica per al Japo.
Si la vostra empresa entrena models amb text japones o conserva registres d'usuaris japonesos, aquestes normes us apliquen ara.
Que van canviar les esmenes del 2022
2,4 milions d'empreses japoneses van haver d'actualitzar les politiques de privadesa i revisar els processos de gestio de dades.
Informacio pseudonimitzada (仮名加工情報): Una nova categoria intermedia. Cobreix registres personals amb identificadors directes eliminats. La reidentificacio encara es possible si es te una clau. Aquests registres poden circular dins d'una organitzacio sense consentiment ple. No poden anar a tercers. El GDPR no te cap categoria equivalent.
Informacio anonimitzada (匿名加工情報): La reidentificacio ha de ser tecnicament impossible. Un tercer qualificat ho ha de confirmar. El llistro del Japo es mes alt que el del GDPR en aquest punt. El GDPR fa opcional aquesta revisio. L'APPI la exigeix.
Transferencies transfrontereres: Les transferencies a altres nacions han de complir el nivell de proteccio del Japo. La PPC manté una llista de paisos aprovats. La UE hi es.
Conjunts d'entrenament d'IA: La guia de la PPC del 2024 ho va tractar directament.
- Els conjunts d'entrenament han d'estar completament anonimitzats o tenir una base juridica valida, normalment el consentiment.
- L'excepcio de processament nomes s'aplica si el model no pot identificar persones a partir de les seves sortides.
- Els desenvolupadors de LLM que entrenen amb registres japonesos extrets de llocs web han de demostrar una base de recopilacio valida.
Per a una visio completa dels deures d'alineament transfronterer, vegeu /legal/compliance.
My Number: el document d'identitat nacional del Japo
El My Number (マイナンバー) es un identificador nacional de 12 digits. El Japo l'assigna a tots els residents. Els nacionals estrangers tambe el reben. El sistema funciona des del 2016. Cobreix fiscalitat, seguretat social i resposta a emergencies.
Com funciona el digit de control: El My Number utilitza el metode Verhoeff. Es un esquema de verificacio d'errors basat en matematiques. Es mes complex de construir que Luhn, el metode usat per al personnummer suec i el SIN canadenc. La majoria de documents d'identitat europeus utilitzen matematiques modulars mes senzilles.
Per que la deteccio es dificil: Una cerca de cadenes de 12 digits fallara. Les dates, els codis postals i els codis de factura semblen iguals. Cal la logica Verhoeff completa per distingir-los. Una expressio regular simple no es suficient.
La revisio de la PPC del 2024 va revelar una dada reveladora: el 63% de les eines NLP generiques no detecten el My Number en registres japonesos.
Vegeu com anonym.legal gestiona el My Number a /entities.
Tres sistemes d'escriptura alhora
El japones utilitza hiragana, katakana i kanji alhora. L'alfabet llati apareix en alguns contextos. El mateix nom pot tenir aspectes diferents en registres distints. Les eines construides per a text en alfabet llati fallen en japones sense suport addicional.
Que significa aixo per a la deteccio de noms:
- El NER japones necessita models entrenats amb text japones. Useu spaCy ja_core_news.
- El japones no te espais entre paraules. La divisio de paraules es un pas propi que necessita eines especifiques per al japones.
- Els noms de persona apareixen en kanji amb guies de lectura en hiragana o katakana. Les eines han de detectar ambdues formes.
- Els noms d'empresa (会社名, 株式会社) necessiten normes especifiques per al Japo.
Per al NER en idiomes de l'APAC, vegeu /docs/faq.
Altres formats d'identificacio japonesos
Permis de conduccio: 12 digits amb un codi de prefix per a la regio d'emissio. Els codis son fixos: Tokio es 10, Osaka es 62. La part de la regio es verificable.
Passaport: Format ICAO estandard amb normes d'emissio especifiques del Japo.
Targeta d'asseguranca medica (健康保険証): Simbol (記号) mes numero. El format varia segons l'assegurador.
Targeta de residencia (在留カード): Per a residents estrangers. Format: dues lletres, vuit digits, dues lletres. L'emet el Ministeri de Justicia.
Estat de les transferencies de dades entre el Japo i la UE
El Japo i la UE tenen adequacio mutua des del 2019. Els registres personals circulen entre la UE i el Japo sense passos addicionals. El Japo es un dels pocs paisos no europeus amb adequacio plena de la UE.
L'acord cobreix registres personals estandard. Els registres de salut sensibles i d'historial penal necessiten salvaguardes addicionals fins i tot sota l'adequacio. Les empreses que traslladen aquests registres han de documentar les mesures addicionals que utilitzen.
Reviseu els vostres deures de transferencia a /security-compliance.
La vostra llista de control per al compliment al Japo
Comencu aqui si gestioneu registres personals japonesos:
- Deteccio del My Number amb logica de digit de control Verhoeff.
- NER japones amb models entrenats en text en escriptura japonesa, no models per a alfabet llati.
- Suport per a noms en kanji, hiragana i katakana mes variants amb guies de lectura.
- Deteccio del permis de conduccio amb verificacions del codi de regio.
- Deteccio de la targeta de residencia amb la logica de format del Ministeri de Justicia.
- Deteccio de la targeta d'asseguranca medica a traves de variants d'assegurador.
- Una base juridica valida per a cada conjunt d'entrenament d'IA que conte registres personals.
- Revisio de tercers per a qualsevol registre classificat com a anonimitzat sota l'APPI.
- Salvaguardes addicionals per als registres sensibles que circulen sota l'acord d'adequacio UE-Japo.
Vegeu /docs/glossary per a les definicions dels termes de l'APPI usats en aquesta guia.