By · Last updated 2026-06-05

חזרה לבלוגGDPR ועמידה

PPC יפן ו-APPI: עמידה בדרישות הגנת הנתונים לאימון AI

ה-PPC היפני אוכף את תיקוני APPI 2022 שחלים על 2.4 מיליון מפעלים יפניים. מספר My Number בן 12 ספרות מחייב אימות Verhoeff.

June 5, 202610 דקות קריאה
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

PPC יפן ו-APPI: עמידה בדרישות הגנת הנתונים לאימון AI

ה-PPC היפני (Personal Information Protection Commission) אוכף את חוק APPI. תיקוני 2022 שינו את החוק יותר מכל עדכון קודם. הם הוסיפו כללים בנושא רשומות מזויפות-פרטיות, העברות חוצות-גבולות, וסטים לאימון AI. ה-PPC הוציא 45 פסיקות ב-2024 ופרסם באותה שנה גם את המדריך הראשון בנושא פרטיות AI הייעודי ליפן.

אם חברתכם מאמנת מודלים על טקסט יפני או מחזיקה רשומות משתמשים יפניים — הכללים הללו חלים עכשיו.

מה שינו תיקוני 2022

2.4 מיליון מפעלים יפניים נאלצו לעדכן את כללי הפרטיות ולשנות נהלי טיפול בנתונים.

מידע שעבר עיבוד לזיהוי-כמעט (仮名加工情報): קטגוריה חדשה ביניים. היא מכסה רשומות אישיות שממנן הוסרו מזהים ישירים, אך זיהוי מחדש עדיין אפשרי בעזרת מפתח. רשומות אלו יכולות לעבור בתוך ארגון ללא הסכמה מלאה, אך אסור להעבירן לצדדים שלישיים. ל-GDPR אין קטגוריה מקבילה.

מידע אנונימי (匿名加工情報): זיהוי מחדש חייב להיות בלתי אפשרי מבחינה טכנית, וצד שלישי מוסמך חייב לאשר זאת. הרף של יפן גבוה יותר מ-GDPR בנקודה זו — GDPR הופך את הביקורת לאופציונלית, בעוד APPI מחייב אותה.

העברות חוצות-גבולות: העברות למדינות אחרות חייבות לעמוד ברמת ההגנה שקבע יפן. ה-PPC מנהל רשימת מדינות מאושרות. האיחוד האירופי נמצא ברשימה זו.

סטים לאימון AI: הנחיית ה-PPC מ-2024 עסקה בנושא זה ישירות:

  • סטי אימון חייבים להיות אנונימיים לחלוטין או להתבסס על בסיס משפטי תקף — בדרך כלל הסכמה.
  • החריג לעיבוד חל רק אם המודל אינו יכול לזהות אנשים מהפלטים שלו.
  • מפתחי LLM המאמנים על רשומות יפניות שנגרפו מאתרים חייבים להציג בסיס איסוף תקף.

לסקירה מלאה של חובות ההתאמה חוצות-הגבולות, ראו /legal/compliance.

My Number: תעודת הזהות הלאומית של יפן

My Number (マイナンバー) הוא מספר זהות לאומי בן 12 ספרות. יפן מנפיקה אותו לכלל התושבים, כולל אזרחים זרים. המערכת פועלת מאז 2016 ומכסה מס, ביטוח לאומי ותגובה לאסונות.

כיצד פועל ספרת הביקורת: My Number משתמש בשיטת Verhoeff — שיטת בדיקת שגיאות מתמטית. היא מורכבת יותר לבנייה מ-Luhn, השיטה המשמשת לפרסונומר שוודי ו-SIN קנדי. רוב תעודות הזהות האירופיות משתמשות בחשבון מודולרי פשוט יותר.

מדוע הזיהוי קשה: חיפוש מחרוזות בנות 12 ספרות לא יניב תוצאות מדויקות. תאריכים, מיקוד ומספרי חשבוניות נראים אותו הדבר. נדרשת לוגיקת Verhoeff מלאה כדי להבחין ביניהם — regex פשוט אינו מספיק.

סקירת ה-PPC מ-2024 חשפה ממצא קשה: 63% מכלי NLP הגנריים אינם מצליחים לזהות My Number ברשומות יפניות.

ראו כיצד anonym.legal מטפל ב-My Number בעמוד /entities.

שלושה מערכות כתיבה בו-זמנית

יפנית משתמשת בהיראגנה, קטקנה וקאנג'י בו-זמנית. כתב רומי מופיע בהקשרים מסוימים. אותו שם עלול להיראות שונה ברשומות שונות. כלים שנבנו לטקסט לטיני נכשלים ביפנית ללא תמיכה ייעודית.

המשמעות לזיהוי שמות:

  • NER יפנית דורשת מודלים שאומנו על טקסט יפני. השתמשו ב-spaCy ja_core_news.
  • ביפנית אין רווחים בין מילים. פיצול מילים הוא שלב נפרד הדורש כלים ייעודיים ליפנית.
  • שמות אישיים מופיעים בקאנג'י עם מדריכי קריאה בהיראגנה או קטקנה. הכלים חייבים לתפוס שתי הצורות.
  • שמות חברות (会社名, 株式会社) דורשים כללים ייעודיים ליפן.

למידע על NER בשפות APAC, ראו /docs/faq.

פורמטים נוספים של תעודות זהות יפניות

רישיון נהיגה: 12 ספרות עם קוד קידומת לאזור ההנפקה. הקודים קבועים — טוקיו הוא 10, אוסקה הוא 62. ניתן לאמת את חלק האזור.

דרכון: פורמט ICAO סטנדרטי עם כללי הנפקה ייעודיים ליפן.

כרטיס ביטוח בריאות (健康保険証): סמל (記号) ומספר. הפורמט משתנה לפי חברת הביטוח.

כרטיס תושבות (在留カード): לתושבים זרים. פורמט: שתי אותיות, שמונה ספרות, שתי אותיות. משרד המשפטים מנפיק אותם.

מעמד העברת הנתונים בין יפן לאיחוד האירופי

ליפן ולאיחוד האירופי יש הכרה הדדית בנאותות מאז 2019. רשומות אישיות זורמות בין האיחוד האירופי ויפן ללא שלבים נוספים. יפן היא אחת מהמדינות הלא-אירופיות הבודדות שזכו להכרה מלאה מהאיחוד האירופי.

ההסדר מכסה רשומות אישיות רגילות. רשומות בריאות ותולדות פליליים רגישות דורשות אמצעי הגנה נוספים גם תחת הכרת הנאותות. חברות המעבירות רשומות אלו חייבות לתעד את הצעדים הנוספים שנקטו.

סקרו את חובות ההעברה שלכם בכתובת /security-compliance.

רשימת בדיקה ליפן

התחילו כאן אם אתם מטפלים ברשומות אישיות יפניות:

  • זיהוי My Number עם לוגיקת ספרת ביקורת Verhoeff.
  • NER יפנית עם מודלים שאומנו על טקסט בכתב יפני — לא מודלים ללטינית.
  • תמיכה בצורות שמות בקאנג'י, היראגנה וקטקנה כולל גרסאות מדריך קריאה.
  • זיהוי רישיון נהיגה עם בדיקות קוד אזור.
  • זיהוי כרטיס תושבות עם לוגיקת פורמט MOJ.
  • זיהוי כרטיס ביטוח בריאות בין גרסאות המנפיקים השונים.
  • בסיס משפטי תקף לכל סט אימון AI שמחזיק רשומות אישיות.
  • ביקורת צד שלישי לכל רשומות המסווגות כאנונימיות תחת APPI.
  • אמצעי הגנה נוספים לרשומות רגישות המועברות תחת הסכם הנאותות האיחוד האירופי–יפן.

ראו /docs/glossary להגדרות מונחי APPI המשמשים במדריך זה.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.