anonym.legal

By · Last updated 2026-06-05

Назад към блогаСигурност на AI

AI асистентите за програмиране изтичат производствени лични данни

Тестови фиксатури с реални клиентски записи. Лог файлове с производствени данни за отстраняване на грешки. GitHub откри 39 милиона изтекли тайни през 2024 г.

June 5, 20268 мин. четене
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Защо AI инструментите за програмиране изтичат реални клиентски записи

Повечето течове на лични данни от екипи за разработка не са пробиви. Те са странични ефекти от ежедневната работа.

Производствените данни влизат в тестови среди. Оттам стигат до AI инструменти за програмиране -- и до вендорите, управляващи ги.

ГитHub изследването от 2025 г. потвърди това. Разработчиците са изтекли 39 милиона тайни в публични хранилища по време на 2024 г. API ключове и лични данни всички са се появили. Повечето са дошли от тестови фиксатури и логове за отстраняване на грешки. Вижте нашия преглед на мерките за сигурност, за да разберете как екипите адресират този риск.

Актуализирано за 2026 г.: Приемането на AI инструменти за програмиране е нараснало бързо. Така и повърхността на излагане.

Как реални записи влизат в средите за разработка

Пътищата са общи и предвидими.

Тестови фиксатурни файлове: Единичните тестове се нуждаят от реалистични входни данни. Най-бързият начин е копиране на редове от производство. Разработчикът планира да ги замени "по-късно". По-късно рядко идва. Реални имейли и идентификатори на акаунти остават в десетки ангажименти.

Логове за отстраняване на грешки: Грешката не може да бъде възпроизведена локално. Разработчик изтегля лог от живата система. Този лог съдържа имейли на клиенти, IP адреси и токени за сесии. Файлът попада в основната директория на проекта и се ангажира.

Скриптове за миграция: Промените на схемата включват примерни редове за тестови среди. DBA копира реални редове като примери. Скриптът -- с истински клиентски записи -- влиза в управлението на версиите.

Документация и README файлове: Примерите за използване съдържат "реалистични" входни данни. Реалистичен често означава копирано от реални потребители. README завършва с реални идентификатори на поръчки и адреси на акаунти.

Конфигурационни файлове: Конфигурациите за разработка съдържат ключове за staging, достигащи до реални клиентски данни. Тези файлове се ангажират с тайни вътре.

Какво реално получават AI асистентите

Когато разработчиците използват AI инструменти за програмиране, множество канали изпращат частна информация навън.

Контекст на целия файл: Инструментът може да получи цели файлове. Това включва тестови фиксатури с реални записи, извлеци от логове или конфигурационни файлове с живи ключове.

Поставяне от клипборд: Разработчиците поставят код в чата за преглед. Заобикалящият контекст често съдържа клиентски данни.

Индексиране от IDE: Cursor и GitHub Copilot индексират локални файлове за контекст. Всеки файл на проекта с реални редове става част от този индекс.

Съобщения за грешки: Разработчиците поставят стекови следи в AI чата при отстраняване на грешки. Стековите следи могат да съдържат идентификатори на клиенти.

Всеки канал изпраща частна информация до API на AI вендора. Това създава риск по GDPR и HIPAA. Вижте нашия преглед за съответствие за начина, по който тези правила важат за инструментите за разработка.

GDPR и HIPAA: ключови факти за екипите за разработка

Тези правила важат за използването на AI инструменти за програмиране.

GDPR член 28 -- Обработващ: Изпращането на лична информация до AI вендор прави този вендор обработващ данни. Изисква се Споразумение за обработка на данни. Повечето вендори предлагат DPA. Разработчици, използващи AI инструменти извън официалното закупуване, може да нямат подписано DPA.

GDPR член 6 -- Правно основание: Тестването за разработка изисква правно основание за обработка на лична информация. Легитимният интерес може да важи -- но изисква тест за балансиране. Използването на реални клиентски редове, когато фалшиви биха свършили работа, не издържа на този тест.

HIPAA -- BAA: Разработчиците в здравеопазването трябва да имат Споразумение за бизнес партньор с AI вендора. OpenAI, Anthropic и GitHub Copilot предлагат BAA за корпоративни потребители. Индивидуалното използване извън корпоративен план може да не бъде обхванато.

Минимизиране: Реалните клиентски записи в тестови фиксатури нарушават правилото за минимизиране. Фалшивите редове служат на същата цел без разходите за поверителност.

Нашите ЧЗВ отговарят на общи въпроси по тези правила.

Практически стъпки за екипите за разработка

Започнете с бърз одит. Повечето екипи намират проблеми в рамките на първия час.

Незабавни действия:

  1. Одитирайте тестовите фиксатури -- търсете шаблони за имейл, телефон и идентификатор.
  2. Проверете производствените лог файлове в директориите на проекта за идентификатори на клиенти.
  3. Актуализирайте .gitignore, за да изключите лог файлове и файлове с данни, специфични за средата.
  4. Заменете реалните записи със синтетични генератори като Faker или Mimesis.

Одитът сам по себе си често разкрива години натрупано излагане. Един екип откри реални имейли на клиенти в 14 тестови файла, създадени от шестима различни разработчици за три години. Нито един от разработчиците не е имал намерение да ги оставя там.

Преди всяка сесия с AI асистент:

  • Изпълнявайте засичане на лични данни върху файлове преди споделяне.
  • За IDE инструменти като Cursor: изключете тестовите директории от индексирането.
  • За инструменти на базата на чат: прегледайте поставения код за лична информация.

Добавка с MCP сървър:

anonym.legal MCP сървърът свързва засичането на лични данни с Claude Desktop и Cursor. Стъпките са прости:

  1. Отворете файл в редактора.
  2. Извикайте MCP сървъра: засечете лични данни в файла.
  3. Прегледайте маркираните елементи.
  4. Заличете на място.
  5. Споделете чистия файл с AI инструмента.

Това добавя под 30 секунди на файл. Премахва ръчната тежест за "проверка за лични данни". Вижте нашите ценови планове, за да добавите достъп до MCP сървъра за вашия екип.

Синтетични входни данни -- трайното решение:

Никога не използвайте реални редове в тестови фиксатури. Синтетичните библиотеки произвеждат реалистични входни данни без излагане на реални потребители. Faker (Python/Node.js), Factory Boy (Python) и Bogus (.NET) генерират валидни входни данни за всяка схема. Всяка библиотека ви позволява да зададете локал и да изведете реалистични имена, имейли и телефонни номера -- всички фалшиви.

Казус: SaaS екип открива реални записи в Cursor

Откритието дойде по време на GDPR одит. SaaS екип, използващ Cursor, откри реални имейли на клиенти в тестови фиксатури. Разработчик беше копирал 50 клиентски реда от производство преди 18 месеца. Тези редове бяха ангажирани в управлението на версиите и индексирани от Cursor.

За 18 месеца Cursor е получавал достъп до фиксатурните файлове приблизително 11 000 пъти в 8 разработчически IDE сесии. Всяка сесия може да е изпратила съдържанието на фиксатурата до Cursor API.

Какво направи екипът:

  1. Замени всичките 50 реални реда с фалшиви входни данни, генерирани от Faker.
  2. Актуализира .gitignore, за да изключи лог файлове.
  3. Добави MCP сървър за засичане на лични данни при поискване преди споделяне на код.
  4. Установи норма: никакви производствени записи в никакъв ангажиран файл.

MCP сървърът беше ключовата промяна. Разработчиците сега изпълняват засичане преди Cursor сесии върху код, работещ с клиенти. Нула допълнителни усилия извън MCP извикването.

Прочетете повече в нашия раздел с казуси.

Източници

GitHub Security Research 2024. VERIFIED-EXTERNAL.

GDPR член 28. VERIFIED-EXTERNAL.

HIPAA BAA насоки. VERIFIED-EXTERNAL.

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.