By · Last updated 2026-06-05

بازگشت به وبلاگامنیت هوش مصنوعی

دستیاران کدنویسی هوش مصنوعی اطلاعات شخصی تولید را نشت می‌دهند

فیکسچرهای تست واحد با سوابق مشتری واقعی. فایل‌های گزارش با داده تولید برای رفع اشکال. GitHub در سال ۲۰۲۴ ۳۹ میلیون راز فاش‌شده پیدا کرد.

June 5, 20268 دقیقه مطالعه
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

چرا ابزارهای کدنویسی هوش مصنوعی سوابق واقعی مشتری را نشت می‌دهند

اکثر نشت‌های اطلاعات شخصی از تیم‌های توسعه نقض امنیتی نیستند. آن‌ها اثرات جانبی کار روزانه هستند.

داده تولید وارد محیط‌های تست می‌شود. از آنجا به ابزارهای کدنویسی هوش مصنوعی می‌رسد — و به فروشندگانی که آن‌ها را اجرا می‌کنند.

تحقیق GitHub در ۲۰۲۵ این را تأیید کرد. توسعه‌دهندگان ۳۹ میلیون راز را در مخازن عمومی در طول ۲۰۲۴ فاش کردند. کلیدهای API و جزئیات شخصی هر دو ظاهر شدند. اکثر از فیکسچرهای تست و گزارش‌های رفع اشکال آمدند. نمای کلی حفاظ‌های امنیتی ما را ببینید تا بدانید تیم‌ها چطور با این ریسک مقابله می‌کنند.

بروزرسانی برای ۲۰۲۶: پذیرش ابزار کدنویسی هوش مصنوعی سریع رشد کرده است. سطح قرار گرفتن در معرض هم همین‌طور.

نحوه ورود سوابق واقعی به محیط‌های توسعه

مسیرها رایج و قابل پیش‌بینی هستند.

فایل‌های فیکسچر تست: تست‌های واحد به ورودی‌های واقعی‌تر نیاز دارند. سریع‌ترین مسیر کپی کردن ردیف‌ها از تولید است. توسعه‌دهنده برنامه دارد آن‌ها را «بعداً» جایگزین کند. بعداً به ندرت می‌آید. ایمیل‌های واقعی و شناسه‌های حساب در ده‌ها commit باقی می‌مانند.

گزارش‌های رفع اشکال: یک باگ به صورت محلی قابل بازتولید نیست. یک توسعه‌دهنده یک گزارش از سیستم زنده استخراج می‌کند. آن گزارش دارای ایمیل‌های مشتری، آدرس‌های IP و توکن‌های نشست است. فایل در ریشه پروژه قرار می‌گیرد و commit می‌شود.

اسکریپت‌های migration: تغییرات schema شامل ردیف‌های نمونه برای محیط‌های تست است. یک DBA ردیف‌های واقعی را به عنوان نمونه کپی می‌کند. اسکریپت — با ورودی‌های واقعی مشتری — وارد کنترل نسخه می‌شود.

مستندات و فایل‌های README: نمونه‌های استفاده از ورودی‌های «واقعی‌تر» استفاده می‌کنند. واقعی‌تر اغلب به معنای کپی شده از کاربران واقعی است.

فایل‌های config: کانفیگ‌های توسعه کلیدهای staging را حمل می‌کنند که به داده مشتری واقعی دسترسی دارند. این فایل‌ها با secrets داخل commit می‌شوند.

آنچه دستیاران هوش مصنوعی واقعاً دریافت می‌کنند

وقتی توسعه‌دهندگان از ابزارهای کدنویسی هوش مصنوعی استفاده می‌کنند، چندین کانال اطلاعات خصوصی را ارسال می‌کنند.

زمینه کامل فایل: ابزار ممکن است کل فایل‌ها را دریافت کند. این شامل فیکسچرهای تست با ورودی‌های واقعی، عصاره‌های گزارش یا فایل‌های config با کلیدهای زنده است.

چسبانیدن clipboard: توسعه‌دهندگان کد را برای بررسی در چت می‌چسبانند. زمینه اطراف اغلب جزئیات مشتری دارد.

فهرست‌بندی IDE: Cursor و GitHub Copilot فایل‌های محلی را برای زمینه فهرست می‌کنند. هر فایل پروژه با ردیف‌های واقعی بخشی از آن فهرست می‌شود.

پیام‌های خطا: توسعه‌دهندگان stack trace‌ها را هنگام رفع اشکال در چت هوش مصنوعی می‌چسبانند. Stack trace‌ها می‌توانند شناسه‌های مشتری را حمل کنند.

هر کانال اطلاعات خصوصی را به API فروشنده هوش مصنوعی می‌فرستد. این ریسک GDPR و HIPAA ایجاد می‌کند. نمای کلی انطباق ما را ببینید تا بفهمید این قوانین چطور برای ابزارهای توسعه اعمال می‌شوند.

GDPR و HIPAA: حقایق کلیدی برای تیم‌های توسعه

این قوانین برای استفاده از ابزار کدنویسی هوش مصنوعی اعمال می‌شوند.

ماده ۲۸ GDPR — پردازش‌گر: ارسال اطلاعات شخصی به یک فروشنده هوش مصنوعی آن فروشنده را یک پردازش‌گر داده می‌کند. یک توافقنامه پردازش داده لازم است. اکثر فروشندگان توافقنامه پردازش داده ارائه می‌دهند. توسعه‌دهندگانی که از ابزارهای هوش مصنوعی خارج از خرید رسمی استفاده می‌کنند ممکن است توافقنامه امضاشده نداشته باشند.

ماده ۶ GDPR — مبنای قانونی: تست توسعه نیاز به مبنای قانونی برای پردازش اطلاعات شخصی دارد. استفاده از ردیف‌های واقعی مشتری وقتی ردیف‌های جعلی همان هدف را برآورده می‌کنند این آزمون را شکست می‌خورد.

HIPAA — BAA: توسعه‌دهندگان بهداشت باید یک توافقنامه شریک تجاری با فروشنده هوش مصنوعی داشته باشند. OpenAI، Anthropic و GitHub Copilot BAA‌هایی برای کاربران enterprise ارائه می‌دهند.

حداقل‌سازی: ورودی‌های واقعی مشتری در فیکسچرهای تست قانون حداقل‌سازی را نقض می‌کنند. ردیف‌های جعلی همان هدف را بدون هزینه حریم خصوصی برآورده می‌کنند.

پرسش‌های متداول ما سؤالات رایج درباره این قوانین را پوشش می‌دهد.

مراحل عملی برای تیم‌های توسعه

با یک ممیزی سریع شروع کنید. اکثر تیم‌ها ظرف اولین ساعت مشکلات پیدا می‌کنند.

اقدامات فوری:

  1. فیکسچرهای تست را ممیزی کنید — به دنبال الگوهای ایمیل، تلفن و شناسه بگردید.
  2. فایل‌های گزارش تولید را در دایرکتوری‌های پروژه برای شناسه‌های مشتری بررسی کنید.
  3. .gitignore را بروزرسانی کنید تا فایل‌های گزارش و فایل‌های داده خاص محیط را حذف کند.
  4. ورودی‌های واقعی را با سازنده‌های مصنوعی مثل Faker یا Mimesis جایگزین کنید.

قبل از هر جلسه دستیار هوش مصنوعی:

  • شناسایی اطلاعات شخصی را بر روی فایل‌ها قبل از اشتراک‌گذاری اجرا کنید.
  • برای ابزارهای IDE مثل Cursor: دایرکتوری‌های تست را از فهرست‌بندی حذف کنید.
  • برای ابزارهای مبتنی بر چت: کد چسبانیده‌شده را برای اطلاعات شخصی بررسی کنید.

افزونه MCP Server:

MCP Server anonym.legal شناسایی اطلاعات شخصی را در Claude Desktop و Cursor متصل می‌کند. مراحل ساده هستند:

  1. یک فایل را در ادیتور باز کنید.
  2. MCP Server را صدا کنید: اطلاعات شخصی را در فایل شناسایی کنید.
  3. موارد علامت‌گذاری‌شده را بررسی کنید.
  4. در محل حذف کنید.
  5. فایل تمیز را با ابزار هوش مصنوعی به اشتراک بگذارید.

این زیر ۳۰ ثانیه در هر فایل اضافه می‌کند. پلان‌های قیمت‌گذاری ما را برای اضافه کردن دسترسی MCP Server به تیم‌تان ببینید.

ورودی‌های مصنوعی — راه‌حل پایدار:

هرگز ردیف‌های واقعی را در فیکسچرهای تست استفاده نکنید. کتابخانه‌های مصنوعی ورودی‌های واقعی‌تر بدون قرار دادن کاربران واقعی در معرض خطر تولید می‌کنند. Faker (Python/Node.js)، Factory Boy (Python) و Bogus (.NET) ورودی‌های معتبری برای هر schema تولید می‌کنند.

مطالعه موردی: یک تیم SaaS سوابق واقعی در Cursor پیدا می‌کند

این کشف در طول یک ممیزی GDPR انجام شد. یک تیم SaaS که از Cursor استفاده می‌کرد، ایمیل‌های واقعی مشتری را در فیکسچرهای تست واحد پیدا کرد. یک توسعه‌دهنده ۵۰ ردیف مشتری را از تولید ۱۸ ماه پیش کپی کرده بود. آن ردیف‌ها در کنترل نسخه commit شده و توسط Cursor فهرست‌بندی شده بودند.

در طول ۱۸ ماه، Cursor تقریباً ۱۱,۰۰۰ بار در ۸ جلسه IDE توسعه‌دهنده به فایل‌های فیکسچر دسترسی داشت.

اقدامات تیم:

  1. همه ۵۰ ردیف واقعی را با ورودی‌های جعلی تولیدشده توسط Faker جایگزین کرد.
  2. .gitignore را برای حذف فایل‌های گزارش بروزرسانی کرد.
  3. MCP Server برای شناسایی اطلاعات شخصی بر اساس تقاضا قبل از به اشتراک گذاری کد اضافه کرد.
  4. یک هنجار تعیین کرد: هیچ ورودی تولید در هیچ فایل commit‌شده‌ای.

MCP Server تغییر کلیدی بود. توسعه‌دهندگان اکنون قبل از جلسات Cursor در کد مشتری‌محور شناسایی اجرا می‌کنند. هیچ تلاش اضافه‌ای فراتر از فراخوانی MCP نیست.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.