By · Last updated 2026-05-27

חזרה לבלוגטכני

אנונימיזציה של נתוני אימון ML בהתאמה ל-GDPR

GDPR מגביל שימוש בנתונים אישיים לאימון מודלי ML מעבר למטרת האיסוף המקורית. מדעני נתונים המסתמכים על סקריפטים חד-פעמיים בפייתון יוצרים פערי ציות שמבקרי DPA מגלים בדיוק.

May 27, 20267 דקות קריאה
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

סקריפט אחד אינו מספיק

כל צוות מדע נתונים כתב אי פעם משהו כזה:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

הסקריפט הזה מחליף כתובות אימייל. זה כל מה שהוא עושה. מערך הנתונים עדיין מכיל שמות, מספרי טלפון ומזהים רפואיים. הוא עדיין ייכשל בביקורת GDPR.

הפער בין "אנונימיזציה של אימיילים" ל"מערך הנתונים תואם GDPR" הוא עצום. צוותים מזלזלים בו כל הזמן.

מדוע GDPR מגביל שימוש לאימון ML

סעיף 5(1)(ב) ל-GDPR הוא הכלל המרכזי. הוא נקרא עיקרון הגבלת המטרה. רשומות אישיות מותר להשתמש בהן רק למטרה שלשמה נאספו.

הזמנות לקוחות נאספו לצורך מילוי הזמנות. לא לאימון מודל המלצות. רשומות רפואיות נאספו לצורך טיפול. לא לאימון מודל חזרה לאשפוז. תשובות לסקרים נאספו לצורך משוב על מוצר. לא לאימון מסווג סנטימנט.

כדי להשתמש ברשומות אלה לאימון ML, צוות צריך אחד משלושה דברים:

  1. הסכמה מפורשת מכל אדם למטרת ML — קשה להשגה, לעתים קרובות בלתי אפשרית למפרע
  2. הערכת אינטרס לגיטימי שמראה שהשימוש ב-ML תואם — אי-ודאות משפטית, תלוי ב-DPA
  3. אנונימיזציה — החלפה או הסרה של פרטים אישיים כך שמערך הנתונים אינו עוד אישי לפי GDPR

אנונימיזציה נכונה מעניקה את הוודאות המשפטית הגבוהה ביותר. האתגר הוא לבצע זאת נכון בכל פעם.

הבעיה עם סקריפטים חד-פעמיים

צוותים שכותבים סקריפט פייתון חדש לכל מערך נתונים יוצרים בעיות מצטברות.

כיסוי לא שלם. סקריפט שנבנה לסכמה אחת מפספס שדות חדשים. עמודת הערות קליניות שנוספה לפני שישה חודשים? לא בביטוי הרגולרי. שדה שם אמצעי? הסקריפט מטפל רק בדפוסי שם פרטי ושם משפחה.

חוסר עקביות. מערך נתונים A עובד עם script_v1. מערך נתונים B עם script_v3. מערך נתונים C עובד על ידי חבר צוות אחר. מערך האימון הממוזג מכיל שלוש שיטות שונות. DPO לא יכול לאשר זאת.

אין שרשרת ביקורת. הסקריפט רץ. מה הוא שינה? אילו ישויות נמצאו? ללא רשומות עיבוד, ציות הוא בלתי אפשרי. כשמבקר DPA שואל "כיצד אתם יודעים שמערך האימון הזה נקי?", התשובה "הרצנו סקריפט פייתון" אינה מספקת.

סחף במודל. דפוסי ביטויים רגולריים שעבדו ב-2023 מפספסים פורמטי מזהה חדשים מ-2024. סקריפטים לא מעדכנים את עצמם.

סקירת עיבוד אצווה

צוות AI רפואי צריך לאנונימיזציה של 8,000 רשומות מטופלים. הצוות האמריקאי צריך גישה ממשרד אירופאי. Schrems II חל — רשומות ממקור אירופי לא יכולות לעבור לתשתית אמריקאית ללא אמצעי הגנה מתאימים.

מסלול מסורתי: מהנדס נתונים כותב סקריפט מותאם. יומיים-שלושה של פיתוח. יום-יומיים של בדיקת DPO. יום של איטרציה. סה"כ: ארבעה עד שישה ימים. פרויקט ה-ML מתעכב.

מסלול עיבוד אצווה:

  1. ייצוא 8,000 הרשומות כ-CSV
  2. העלאה לעיבוד אצווה
  3. הגדרת סוגי ישויות: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. בחירת שיטה: Replace (מחליף בערכים סינתטיים ריאליסטיים כדי לשמר מבנה)
  5. עיבוד: 45 דקות ל-8,000 רשומות
  6. הורדת ה-CSV הנקי
  7. DPO סוקר מטא-נתוני עיבוד — ספירות ישויות לרשומה, שיטות שהוחלו: שעתיים
  8. DPO מאשר. ההעברה מתבצעת.

סה"כ זמן: 45 דקות ועוד שעתיים של בדיקת DPO. במקום ארבעה עד שישה ימים.

ראו את מדריך אימון EU AI Act לאופן שבו אותם שלבים מספקים את חובות סעיף 10.

Replace לעומת Redact לשימוש ב-ML

שיטת האנונימיזציה משנה לאיכות המודל.

Redact מחליף PII באסימון כמו [REDACTED]. זה עובד למודלי זיהוי PII. למשימות אחרות — סנטימנט, סיווג, המלצות — זה פוגע. המודל לומד ש-[REDACTED] הוא אסימון מיוחד. הוא לא יכול ללמוד מהתפלגות הטבעית של שמות וערכים.

Replace מחליף "John Smith" ב"David Chen". הוא מחליף "jsmith@company.com" ב"dchen@synthetic.com". המבנה נשמר. מיקום ישויות, דפוסי שיתוף, זרימת משפטים — הכל נשמר. המודל לומד מהקשר ריאליסטי.

למערכי אימון ML, Replace היא הבחירה הנכונה. המודל לא לומד את הערכים המזויפים. הוא לומד את הדפוסים סביבם. זה מה שחשוב.

Schrems II והעברות חוצות-גבול

פסיקת Schrems II (CJEU, 2020) ביטלה את ה-EU-US Privacy Shield. רשומות ממקור אירופי לא יכולות לעבור לתשתית ML אמריקאית — AWS US-East, GCP US-Central — ללא אמצעי הגנה מתאימים להעברה.

שלוש אמצעי ההגנה העיקריים הם:

  • סעיפים חוזיים סטנדרטיים עם הערכת השפעת העברה
  • כללים ארגוניים מחייבים להעברות בתוך קבוצת חברות
  • פטור לרשומות אנונימיות — קבצים שאונונימיזו כהלכה אינם עוד אישיים לפי GDPR ופטורים מכללי העברה

לצוותים המשתמשים בתשתית אמריקאית עם מערכי נתונים ממקור אירופי, אנונימיזציה נכונה מסירה את בעיית Schrems II. מערך הנתונים הנקי אינו אישי. הוא יכול לנוע בחופשיות.

זה אחד היתרונות המעשיים החזקים ביותר של אנונימיזציה באצווה. הוא לא רק מספק את GDPR. הוא מסיר לחלוטין את החיכוך החוצה-גבול.

למידע נוסף על הגבלות העברה, ראו את מדריך הגבלת מטרה GDPR.

מה לתת ל-DPO

בעת הגשת מערך אימון נקי לאישור DPO, כללו חמישה פריטים אלה:

  1. תיאור מקור. מה היה מערך הנתונים המקורי? מה הייתה מטרת האיסוף? אילו קטגוריות אישיות הוא הכיל?
  2. תצורת אנונימיזציה. אילו סוגי ישויות זוהו והוחלפו? איזו שיטה הוחלה?
  3. מטא-נתוני עיבוד. ספירות ישויות לרשומה, ציוני ביטחון, סה"כ רשומות שעובדו.
  4. הערכת סיכון שיורי. מה הסיכוי שאדם כלשהו יזוהה מחדש? לאנונימיזציה בשיטת Replace עם 285+ סוגי ישויות על טקסט מובנה, ההסתברות הזו נמוכה מאוד.
  5. שימוש מיועד. איזה מודל יאומן? מה מטרת האימון?

עיבוד אצווה מספק פריטים 2 ו-3 אוטומטית. פריטים 1, 4 ו-5 מגיעים ממדען הנתונים.

ראו את ה-batch API של anonym.legal לאופן שבו מטא-נתוני עיבוד מוחזרים עם כל משימה.

מה מרוויחים

מערכי ML תואמי GDPR ניתנים להשגה ללא סקריפטים מותאמים, ללא עיכובים של ימים רבים, וללא אובדן איכות המודל.

שיטת Replace שומרת על תכונות השפה הטבעית שחשובות לאימון NLP. היא מסירה את הפרטים האישיים שיוצרים סיכון GDPR.

45 דקות של עיבוד אצווה הם ההבדל בין בדיקת ציות מעוכבת לאישור DPO פשוט.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.