anonym.legal

By · Last updated 2026-06-05

Назад к блогуБезопасность ИИ

ИИ-ассистенты для разработки сливают производственные персональные данные

Тестовые фикстуры с реальными клиентскими записями. Лог-файлы с производственными данными для отладки. GitHub зафиксировал 39 миллионов утечек секретов в 2024 году.

June 5, 20268 мин чтения
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Почему ИИ-инструменты для разработки сливают реальные клиентские записи

Большинство утечек персональных данных из команд разработки — не взломы. Они являются побочными эффектами повседневной работы.

Производственные данные попадают в тестовые среды. Оттуда они достигают ИИ-инструментов для разработки — и поставщиков, их обеспечивающих.

Это подтвердило исследование GitHub 2025 года. В 2024 году разработчики допустили утечку 39 миллионов секретов в публичных репозиториях. Среди них — ключи API и персональные данные. Большинство происходило из тестовых фикстур и отладочных логов. Узнайте, как команды решают эту проблему, в обзоре защитных мер безопасности.

Обновлено в 2026 году: Использование ИИ-инструментов для разработки резко возросло. Вместе с ним расширилась и поверхность уязвимости.

Как реальные данные попадают в среды разработки

Пути стандартны и предсказуемы.

Файлы тестовых фикстур: Юнит-тестам нужны реалистичные входные данные. Самый быстрый путь — скопировать строки из производства. Разработчик планирует заменить их «потом». «Потом» редко наступает. Реальные адреса электронной почты и идентификаторы аккаунтов остаются через десятки коммитов.

Отладочные логи: Ошибку не удаётся воспроизвести локально. Разработчик извлекает лог из живой системы. Этот лог содержит электронные адреса клиентов, IP-адреса и токены сессий. Файл оказывается в корне проекта и попадает в коммит.

Скрипты миграции: Изменения схемы включают примеры строк для тестовых сред. DBA копирует реальные строки как образцы. Скрипт — с подлинными клиентскими записями — попадает в систему контроля версий.

Документация и файлы README: Примеры использования применяют «реалистичные» входные данные. Реалистичные нередко означают скопированные от реальных пользователей. README в итоге содержит реальные идентификаторы заказов и адреса аккаунтов.

Конфигурационные файлы: Конфиги разработки содержат ключи промежуточной среды, имеющие доступ к реальным клиентским данным. Эти файлы попадают в коммиты вместе с секретами.

Что на самом деле получают ИИ-ассистенты

Когда разработчики используют ИИ-инструменты для разработки, несколько каналов передают конфиденциальную информацию.

Контекст целого файла: Инструмент может получать файлы целиком. Это включает тестовые фикстуры с реальными записями, выдержки из логов или конфигурационные файлы с действующими ключами.

Вставка из буфера обмена: Разработчики вставляют код в чат для проверки. Окружающий контекст нередко содержит данные клиентов.

Индексирование IDE: Cursor и GitHub Copilot индексируют локальные файлы для формирования контекста. Любой файл проекта с реальными строками становится частью этого индекса.

Сообщения об ошибках: Разработчики вставляют трассировки стека в ИИ-чат при отладке. Трассировки могут содержать идентификаторы клиентов.

Каждый канал передаёт конфиденциальную информацию в API поставщика ИИ. Это создаёт риск по GDPR и HIPAA. Подробнее о применении этих правил к инструментам разработки — в обзоре соответствия.

GDPR и HIPAA: ключевые факты для команд разработки

Эти правила применяются к использованию ИИ-инструментов для разработки.

Статья 28 GDPR — Обработчик данных: Передача персональных данных поставщику ИИ делает его обработчиком данных. Требуется Соглашение об обработке данных (DPA). Большинство поставщиков предлагают DPA. Разработчики, использующие ИИ-инструменты без официального соглашения о покупке, могут не иметь подписанного DPA.

Статья 6 GDPR — Правовое основание: Тестирование при разработке требует правового основания для обработки персональных данных. Законный интерес может применяться — но требует балансового теста. Использование реальных клиентских строк при наличии синтетических альтернатив этот тест не проходит.

HIPAA — BAA: Разработчики в сфере здравоохранения должны иметь Соглашение о деловом партнёрстве (BAA) с поставщиком ИИ. OpenAI, Anthropic и GitHub Copilot предлагают BAA для корпоративных пользователей. Индивидуальное использование за пределами корпоративного плана может не охватываться.

Минимизация данных: Реальные клиентские записи в тестовых фикстурах нарушают принцип минимизации данных. Синтетические строки выполняют ту же функцию без рисков для конфиденциальности.

Частые вопросы по этим правилам — в нашем FAQ.

Практические шаги для команд разработки

Начните с быстрого аудита. Большинство команд находят проблемы в течение первого часа.

Немедленные действия:

  1. Проверьте тестовые фикстуры — ищите шаблоны электронной почты, телефонов и идентификаторов.
  2. Проверьте производственные лог-файлы в директориях проекта на наличие клиентских идентификаторов.
  3. Обновите .gitignore, исключив лог-файлы и файлы с данными, зависящими от среды.
  4. Замените реальные записи синтетическими генераторами, такими как Faker или Mimesis.

Один лишь аудит нередко обнаруживает годами накопленную уязвимость. Одна команда нашла реальные электронные адреса клиентов в 14 тестовых файлах, созданных шестью разными разработчиками за три года. Никто из них не намеревался их там оставлять.

Перед любой сессией с ИИ-ассистентом:

  • Запустите обнаружение персональных данных для файлов перед их передачей.
  • Для IDE-инструментов, таких как Cursor: исключите тестовые директории из индексирования.
  • Для чат-инструментов: проверяйте вставляемый код на наличие персональных данных.

Дополнение через MCP Server:

MCP Server anonym.legal интегрирует обнаружение персональных данных в Claude Desktop и Cursor. Шаги просты:

  1. Откройте файл в редакторе.
  2. Вызовите MCP Server: обнаружить персональные данные в файле.
  3. Проверьте помеченные элементы.
  4. Отредактируйте на месте.
  5. Передайте чистый файл ИИ-инструменту.

Это занимает менее 30 секунд на файл. Снимает ручную нагрузку по проверке на персональные данные. Подробности о добавлении доступа к MCP Server для вашей команды — на странице тарифов.

Синтетические входные данные — долгосрочное решение:

Никогда не используйте реальные строки в тестовых фикстурах. Синтетические библиотеки создают реалистичные входные данные без раскрытия реальных пользователей. Faker (Python/Node.js), Factory Boy (Python) и Bogus (.NET) генерируют корректные входные данные для любой схемы. Каждая библиотека позволяет задать региональные настройки и выдаёт реалистичные имена, адреса электронной почты и телефонные номера — все вымышленные.

Практический случай: команда SaaS находит реальные данные в Cursor

Находка была сделана в ходе аудита GDPR. Команда SaaS, использующая Cursor, обнаружила реальные электронные адреса клиентов в тестовых фикстурах юнит-тестов. Разработчик скопировал 50 строк клиентских данных из производства 18 месяцев назад. Эти строки были зафиксированы в системе контроля версий и проиндексированы Cursor.

За 18 месяцев Cursor обращался к файлам фикстур примерно 11 000 раз в рамках 8 сессий в IDE разработчиков. Каждая сессия могла передавать содержимое фикстур в API Cursor.

Что сделала команда:

  1. Заменила все 50 реальных строк синтетическими данными, сгенерированными Faker.
  2. Обновила .gitignore, исключив лог-файлы.
  3. Добавила MCP Server для обнаружения персональных данных по запросу перед передачей кода.
  4. Установила норму: никаких производственных записей ни в каком зафиксированном файле.

MCP Server стал ключевым изменением. Теперь разработчики запускают обнаружение перед сессиями Cursor на коде, работающем с клиентскими данными. Никаких дополнительных усилий, кроме вызова MCP.

Подробнее — в разделе кейсов.

Источники

Исследование безопасности GitHub 2024. VERIFIED-EXTERNAL.

Статья 28 GDPR. VERIFIED-EXTERNAL.

Руководство HIPAA по BAA. VERIFIED-EXTERNAL.

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.