By · Last updated 2026-06-05

חזרה לבלוגאבטחת AI

עוזרי קידוד AI דולפים נתוני ייצור אישיים

מכשירי בדיקה עם רשומות לקוחות אמיתיות. קובצי לוג עם נתוני ייצור לצורך ניפוי שגיאות. GitHub מצא 39 מיליון סודות שדלפו ב-2024.

June 5, 20268 דקות קריאה
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

מדוע כלי AI לקידוד דולפים רשומות לקוחות אמיתיות

רוב דליפות ה-PII מצוותי פיתוח אינן הפרות. הן תופעות לוואי של עבודה יומיומית.

נתוני ייצור נכנסים לסביבות בדיקה. משם הם מגיעים לכלי AI לקידוד — ולספקים שמפעילים אותם.

מחקר GitHub 2025 אישר זאת. מפתחים דלפו 39 מיליון סודות במאגרים ציבוריים במהלך 2024. מפתחות API ופרטים אישיים כולם הופיעו. רובם הגיעו ממכשירי בדיקה ויומני ניפוי שגיאות. ראו את סקירת אמצעי האבטחה שלנו כדי ללמוד כיצד צוותים מתמודדים עם סיכון זה.

עודכן לשנת 2026: אימוץ כלי AI לקידוד גדל מהר. גם כן משטח החשיפה.

כיצד רשומות אמיתיות נכנסות לסביבות פיתוח

הנתיבים נפוצים וצפויים.

קבצי מכשירי בדיקה: בדיקות יחידה צריכות קלטים ריאליסטיים. הדרך המהירה ביותר היא העתקת שורות מהייצור. המפתח מתכנן להחליף אותן "מאוחר יותר". מאוחר יותר נדיר שמגיע. אימיילים ומזהי חשבונות אמיתיים נשארים דרך עשרות commits.

יומני ניפוי שגיאות: באג לא ניתן לשחזור מקומית. מפתח מושך יומן מהמערכת החיה. לאותו יומן יש אימיילי לקוחות, כתובות IP ואסימוני סשן. הקובץ נוחת בשורש הפרויקט ומתוייג.

סקריפטים להגירה: שינויי סכמה כוללים שורות לדוגמה לסביבות בדיקה. DBA מעתיק שורות אמיתיות כדוגמאות. הסקריפט — עם ערכי לקוח אמיתיים — נכנס לבקרת גרסאות.

מסמכים וקבצי README: דוגמאות שימוש משתמשות בקלטים "ריאליסטיים". ריאליסטי לעתים קרובות אומר מועתק ממשתמשים אמיתיים. ה-README מסתיים עם מזהי הזמנות ממשיים וכתובות חשבון.

קבצי תצורה: תצורות פיתוח מכילות מפתחות staging שמגיעים לנתוני לקוחות אמיתיים. קבצים אלה מתוייגים עם סודות בתוכם.

מה עוזרי AI בעצם מקבלים

כאשר מפתחים משתמשים בכלי AI לקידוד, מספר ערוצים שולחים מידע פרטי.

הקשר קובץ שלם: הכלי עשוי לקבל קבצים שלמים. כולל מכשירי בדיקה עם ערכים אמיתיים, קטעי יומן, או קבצי תצורה עם מפתחות חיים.

הדבקות מלוח: מפתחים מדביקים קוד לצ'אט לבדיקה. ההקשר המקיף לעתים קרובות מכיל פרטי לקוחות.

אינדוקס IDE: Cursor ו-GitHub Copilot מאנדקסים קבצים מקומיים לצורך הקשר. כל קובץ פרויקט עם שורות אמיתיות הופך לחלק מאותו אינדקס.

הודעות שגיאה: מפתחים מדביקים stack traces לצ'אט AI בעת ניפוי שגיאות. stack traces יכולים להכיל מזהי לקוחות.

כל ערוץ שולח מידע פרטי ל-API של ספק ה-AI. זה יוצר סיכון GDPR ו-HIPAA. ראו את סקירת התאימות שלנו לאופן שכללים אלה חלים על כלי פיתוח.

GDPR ו-HIPAA: עובדות מרכזיות לצוותי פיתוח

כללים אלה חלים על שימוש בכלי AI לקידוד.

GDPR סעיף 28 — מעבד: שליחת מידע אישי לספק AI הופכת את הספק לעוזר עיבוד נתונים. נדרש הסכם עיבוד נתונים (DPA). רוב הספקים מציעים DPA. מפתחים שמשתמשים בכלי AI מחוץ לרכש פורמלי עשויים ללא DPA חתום.

GDPR סעיף 6 — בסיס משפטי: בדיקות פיתוח דורשות בסיס משפטי לעיבוד מידע אישי. אינטרס לגיטימי עשוי לחול — אך הוא צריך בדיקת איזון. שימוש בשורות לקוח אמיתיות כאשר שורות מזויפות יכשרו נכשל באותה בדיקה.

HIPAA — BAA: מפתחי בריאות חייבים להחזיק הסכם שותף עסקי (BAA) עם ספק ה-AI. OpenAI, Anthropic ו-GitHub Copilot מציעים BAA למשתמשי ארגוניים. שימוש אישי מחוץ לתוכנית ארגונית עשוי שלא להיות מכוסה.

מינימיזציה: ערכי לקוח אמיתיים במכשירי בדיקה מפרים את כלל המינימיזציה. שורות מזויפות משרתות את אותה מטרה ללא עלות הפרטיות.

שאלות נפוצות שלנו עונות על שאלות נפוצות על כללים אלה.

צעדים מעשיים לצוותי פיתוח

התחילו עם ביקורת מהירה. רוב הצוותים מוצאים בעיות בשעה הראשונה.

פעולות מיידיות:

  1. בקרו במכשירי בדיקה — חפשו דפוסי אימייל, טלפון ומזהה.
  2. בדקו קבצי יומן ייצור בספריות פרויקט לצורך מזהי לקוחות.
  3. עדכנו .gitignore לאי-הכללת קבצי יומן ונתוני קבצים ספציפיים לסביבה.
  4. החליפו ערכים אמיתיים במחוללים סינתטיים כמו Faker או Mimesis.

הביקורת לבדה לעתים קרובות חושפת שנים של חשיפה מצטברת. צוות אחד מצא אימיילי לקוח אמיתיים ב-14 קבצי בדיקה שנוצרו על ידי שישה מפתחים שונים על פני שלוש שנים. אף אחד מהמפתחים לא התכוון להשאיר אותם שם.

לפני כל סשן עוזר AI:

  • הפעילו זיהוי PII על קבצים לפני שיתופם.
  • לכלי IDE כמו Cursor: אל תכללו ספריות בדיקה מאינדוקס.
  • לכלים מבוססי צ'אט: בדקו קוד מודבק לצורך מידע אישי.

תוסף שרת MCP:

שרת ה-MCP של anonym.legal מחבר זיהוי PII ל-Claude Desktop ו-Cursor. השלבים פשוטים:

  1. פתחו קובץ בעורך.
  2. קראו לשרת ה-MCP: זהו PII בקובץ.
  3. בדקו פריטים מסומנים.
  4. ערכו במקום.
  5. שתפו את הקובץ הנקי עם כלי ה-AI.

זה מוסיף פחות מ-30 שניות לכל קובץ. זה מסיר את נטל "בדקו PII" הידני. ראו את תוכניות התמחור שלנו להוספת גישת שרת MCP לצוות שלכם.

קלטים סינתטיים — התיקון הקבוע:

לעולם אל תשתמשו בשורות אמיתיות במכשירי בדיקה. ספריות סינתטיות מייצרות קלטים ריאליסטיים מבלי לחשוף משתמשים אמיתיים. Faker (Python/Node.js), Factory Boy (Python) ו-Bogus (.NET) מייצרים קלטים תקינים לכל סכמה. כל ספרייה מאפשרת לכם לזרוע אזור ולייצר שמות, אימיילים ומספרי טלפון ריאליסטיים — כולם מזויפים.

מקרה בוחן: צוות SaaS מוצא ערכים אמיתיים ב-Cursor

הממצא הגיע במהלך ביקורת GDPR. צוות SaaS שמשתמש ב-Cursor מצא אימיילי לקוח אמיתיים במכשירי בדיקה. מפתח העתיק 50 שורות לקוח מהייצור לפני 18 חודשים. אותן שורות תוייגו לבקרת גרסאות ואונדקסו על ידי Cursor.

במשך 18 חודשים, Cursor ניגש לקבצי המכשיר בערך 11,000 פעמים על פני 8 סשני IDE של מפתחים. כל סשן עשוי לשלוח תוכן מכשיר ל-API של Cursor.

מה הצוות עשה:

  1. החליף את כל 50 השורות האמיתיות בקלטים מזויפים שנוצרו על ידי Faker.
  2. עדכן .gitignore לאי-הכללת קבצי יומן.
  3. הוסיף שרת MCP לזיהוי PII לפי דרישה לפני שיתוף קוד.
  4. קבע נורמה: ללא ערכי ייצור בכל קובץ מתוייג.

שרת ה-MCP היה השינוי המרכזי. מפתחים כעת מפעילים זיהוי לפני סשני Cursor על קוד מכוון ללקוחות. אפס מאמץ נוסף מעבר לקריאת ה-MCP.

קראו עוד בקטע מחקרי המקרה שלנו.

מקורות

מחקר אבטחת GitHub 2024.

GDPR סעיף 28.

הנחיות BAA של HIPAA.

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.