PPC יפן ו-APPI: עמידה בדרישות הגנת הנתונים לאימון AI

ה-PPC היפני (Personal Information Protection Commission) אוכף את חוק APPI. תיקוני 2022 שינו את החוק יותר מכל עדכון קודם. הם הוסיפו כללים בנושא רשומות מזויפות-פרטיות, העברות חוצות-גבולות, וסטים לאימון AI. ה-PPC הוציא 45 פסיקות ב-2024 ופרסם באותה שנה גם את המדריך הראשון בנושא פרטיות AI הייעודי ליפן.

אם חברתכם מאמנת מודלים על טקסט יפני או מחזיקה רשומות משתמשים יפניים — הכללים הללו חלים עכשיו.

מה שינו תיקוני 2022

2.4 מיליון מפעלים יפניים נאלצו לעדכן את כללי הפרטיות ולשנות נהלי טיפול בנתונים.

מידע שעבר עיבוד לזיהוי-כמעט (仮名加工情報): קטגוריה חדשה ביניים. היא מכסה רשומות אישיות שממנן הוסרו מזהים ישירים, אך זיהוי מחדש עדיין אפשרי בעזרת מפתח. רשומות אלו יכולות לעבור בתוך ארגון ללא הסכמה מלאה, אך אסור להעבירן לצדדים שלישיים. ל-GDPR אין קטגוריה מקבילה.

מידע אנונימי (匿名加工情報): זיהוי מחדש חייב להיות בלתי אפשרי מבחינה טכנית, וצד שלישי מוסמך חייב לאשר זאת. הרף של יפן גבוה יותר מ-GDPR בנקודה זו — GDPR הופך את הביקורת לאופציונלית, בעוד APPI מחייב אותה.

העברות חוצות-גבולות: העברות למדינות אחרות חייבות לעמוד ברמת ההגנה שקבע יפן. ה-PPC מנהל רשימת מדינות מאושרות. האיחוד האירופי נמצא ברשימה זו.

סטים לאימון AI: הנחיית ה-PPC מ-2024 עסקה בנושא זה ישירות:

סטי אימון חייבים להיות אנונימיים לחלוטין או להתבסס על בסיס משפטי תקף — בדרך כלל הסכמה.
החריג לעיבוד חל רק אם המודל אינו יכול לזהות אנשים מהפלטים שלו.
מפתחי LLM המאמנים על רשומות יפניות שנגרפו מאתרים חייבים להציג בסיס איסוף תקף.

לסקירה מלאה של חובות ההתאמה חוצות-הגבולות, ראו /legal/compliance.

My Number: תעודת הזהות הלאומית של יפן

My Number (マイナンバー) הוא מספר זהות לאומי בן 12 ספרות. יפן מנפיקה אותו לכלל התושבים, כולל אזרחים זרים. המערכת פועלת מאז 2016 ומכסה מס, ביטוח לאומי ותגובה לאסונות.

כיצד פועל ספרת הביקורת: My Number משתמש בשיטת Verhoeff — שיטת בדיקת שגיאות מתמטית. היא מורכבת יותר לבנייה מ-Luhn, השיטה המשמשת לפרסונומר שוודי ו-SIN קנדי. רוב תעודות הזהות האירופיות משתמשות בחשבון מודולרי פשוט יותר.

מדוע הזיהוי קשה: חיפוש מחרוזות בנות 12 ספרות לא יניב תוצאות מדויקות. תאריכים, מיקוד ומספרי חשבוניות נראים אותו הדבר. נדרשת לוגיקת Verhoeff מלאה כדי להבחין ביניהם — regex פשוט אינו מספיק.

סקירת ה-PPC מ-2024 חשפה ממצא קשה: 63% מכלי NLP הגנריים אינם מצליחים לזהות My Number ברשומות יפניות.

ראו כיצד anonym.legal מטפל ב-My Number בעמוד /entities.

שלושה מערכות כתיבה בו-זמנית

יפנית משתמשת בהיראגנה, קטקנה וקאנג'י בו-זמנית. כתב רומי מופיע בהקשרים מסוימים. אותו שם עלול להיראות שונה ברשומות שונות. כלים שנבנו לטקסט לטיני נכשלים ביפנית ללא תמיכה ייעודית.

המשמעות לזיהוי שמות:

NER יפנית דורשת מודלים שאומנו על טקסט יפני. השתמשו ב-spaCy ja_core_news.
ביפנית אין רווחים בין מילים. פיצול מילים הוא שלב נפרד הדורש כלים ייעודיים ליפנית.
שמות אישיים מופיעים בקאנג'י עם מדריכי קריאה בהיראגנה או קטקנה. הכלים חייבים לתפוס שתי הצורות.
שמות חברות (会社名, 株式会社) דורשים כללים ייעודיים ליפן.

למידע על NER בשפות APAC, ראו /docs/faq.

פורמטים נוספים של תעודות זהות יפניות

רישיון נהיגה: 12 ספרות עם קוד קידומת לאזור ההנפקה. הקודים קבועים — טוקיו הוא 10, אוסקה הוא 62. ניתן לאמת את חלק האזור.

דרכון: פורמט ICAO סטנדרטי עם כללי הנפקה ייעודיים ליפן.

כרטיס ביטוח בריאות (健康保険証): סמל (記号) ומספר. הפורמט משתנה לפי חברת הביטוח.

כרטיס תושבות (在留カード): לתושבים זרים. פורמט: שתי אותיות, שמונה ספרות, שתי אותיות. משרד המשפטים מנפיק אותם.

מעמד העברת הנתונים בין יפן לאיחוד האירופי

ליפן ולאיחוד האירופי יש הכרה הדדית בנאותות מאז 2019. רשומות אישיות זורמות בין האיחוד האירופי ויפן ללא שלבים נוספים. יפן היא אחת מהמדינות הלא-אירופיות הבודדות שזכו להכרה מלאה מהאיחוד האירופי.

ההסדר מכסה רשומות אישיות רגילות. רשומות בריאות ותולדות פליליים רגישות דורשות אמצעי הגנה נוספים גם תחת הכרת הנאותות. חברות המעבירות רשומות אלו חייבות לתעד את הצעדים הנוספים שנקטו.

סקרו את חובות ההעברה שלכם בכתובת /security-compliance.

רשימת בדיקה ליפן

התחילו כאן אם אתם מטפלים ברשומות אישיות יפניות:

זיהוי My Number עם לוגיקת ספרת ביקורת Verhoeff.
NER יפנית עם מודלים שאומנו על טקסט בכתב יפני — לא מודלים ללטינית.
תמיכה בצורות שמות בקאנג'י, היראגנה וקטקנה כולל גרסאות מדריך קריאה.
זיהוי רישיון נהיגה עם בדיקות קוד אזור.
זיהוי כרטיס תושבות עם לוגיקת פורמט MOJ.
זיהוי כרטיס ביטוח בריאות בין גרסאות המנפיקים השונים.
בסיס משפטי תקף לכל סט אימון AI שמחזיק רשומות אישיות.
ביקורת צד שלישי לכל רשומות המסווגות כאנונימיות תחת APPI.
אמצעי הגנה נוספים לרשומות רגישות המועברות תחת הסכם הנאותות האיחוד האירופי–יפן.

ראו /docs/glossary להגדרות מונחי APPI המשמשים במדריך זה.

מקורות

מאמרים קשורים

GDPR ועמידה

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

התחל ניסיון חינם צפה בתכונות

PPC יפן ו-APPI: עמידה בדרישות הגנת הנתונים לאימון AI