anonym.legal

By · Last updated 2026-06-05

Назад на блоготБезбедност на вештачка интелигенција

AI помошниците за програмирање протекуваат лични податоци од продукцијата

Фиксатори за единечни тестови со реални клиентски записи. Евиденциски датотеки со продукциски податоци за дебагирање. GitHub откри 39 милиони протечени тајни во 2024 година.

June 5, 20268 мин читање
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Зошто AI алатките за програмирање протекуваат реални клиентски записи

Повеќето протекувања на лични податоци од развојните тимови не се прекршувања. Тие се нуспојави на секојдневната работа.

Продукциските податоци влегуваат во тест-средини. Оттаму, тие стигнуваат до AI алатките за програмирање — и до продавачите кои ги извршуваат.

Истражувањето на GitHub за 2025 година го потврди ова. Програмерите протечале 39 милиони тајни во jавни складишта во текот на 2024 година. Се pojавиле API-клучеви и лични детали. Повеќето дошле од фиксатори за тестови и дебаг-дневници. Видете го нашиот преглед на заштитни мерки за безбедност за да дознаете како тимовите го адресираат овој ризик.

Ажурирано за 2026: Усвојувањето на AI алатките за програмирање брзо порасна. Исто така порасна и површината на изложеност.

Како реалните записи влегуваат во развојните средини

Патиштата се вообичаени и предвидливи.

Фиксатори за тестови: Единечните тестови бараат реалистични влезни вредности. Најбрзиот пат е копирање редови од продукцијата. Програмерот планира да ги замени "подоцна". Подоцна ретко доаѓа. Реалните е-пошти и ID-броеви на сметките остануваат низ десетици commits.

Дебаг-дневници: Грешка не може да се репродуцира локално. Програмерот влече дневник од живиот систем. Тој дневник содржи е-пошти на клиенти, IP-адреси и токени за сесии. Датотеката слетува во коренот на проектот и се commit-ира.

Скрипти за миграција: Промените на шемата вклучуваат примерни редови за тест-средини. DBA копира реални редови како примери. Скриптата — со вистински клиентски записи — влегува во контрола на верзии.

Документи и README датотеки: Примерите за употреба користат "реалистични" влезни вредности. Реалистично честопати значи копирано од реални корисници. README-то завршува со реални ID-броеви на нарачки и адреси на сметки.

Конфигурациски датотеки: Конфигурациите за развој носат клучеви за постапување кои достигнуваат до реалните клиентски податоци. Овие датотеки се commit-ираат со тајни внатре.

Она што AI помошниците навистина примаат

Кога програмерите користат AI алатки за програмирање, повеќе канали испраќаат приватни информации надвор.

Контекст на целата датотека: Алатката може да прими цели датотеки. Тоа вклучува фиксатори за тестови со реални записи, извадоци од дневници или конфигурациски датотеки со живи клучеви.

Залепувања во меморија: Програмерите залепуваат код во чет за преглед. Околниот контекст честопати содржи клиентски детали во себе.

Индексирање во IDE: Cursor и GitHub Copilot ги индексираат локалните датотеки за контекст. Секоја проектна датотека со реални редови станува дел од тој индекс.

Пораки за грешки: Програмерите залепуваат stack traces во AI чет при дебагирање. Stack traces можат да носат кориснички ID-броеви.

Секој канал испраќа приватни информации до API на продавачот на AI. Ова создава ризик согласно GDPR и HIPAA. Видете го нашиот преглед на усогласеноста за тоа како овие правила важат за развојните алатки.

GDPR и HIPAA: Клучни факти за развојните тимови

Овие правила важат за употребата на AI алатките за програмирање.

GDPR член 28 — Обработувач: Испраќањето лични информации до продавач на AI го прави тој продавач обработувач на податоци. Потребен е Договор за обработка на податоци. Повеќето продавачи нудат DPA. Програмерите кои користат AI алатки надвор од формалната купувачка процедура можат да немаат потпишан DPA.

GDPR член 6 — Законска основа: Тестирањето при развој бара законска основа за обработка на лични информации. Легитимниот интерес може да важи — но потребен е тест за балансирање. Употребата на реални клиентски редови кога лажните би служеле истата цел не го поминува тој тест.

HIPAA — BAA: Програмерите во здравството мора да имаат Договор за деловен соработник со продавачот на AI. OpenAI, Anthropic и GitHub Copilot нудат BAA за корпоративни корисници. Индивидуалната употреба надвор од корпоративен план можно е да не биде опфатена.

Минимизирање: Реалните клиентски записи во фиксаторите за тестови го кршат правилото за минимизирање. Лажните редови ја исполнуваат истата цел без трошоците за приватност.

Нашиот ЧПП ги опфаќа вообичаените прашања за овие правила.

Практични чекори за развојните тимови

Почнете со брза ревизија. Повеќето тимови наоѓаат проблеми во рок на еден час.

Непосредни акции:

  1. Ревидирајте ги фиксаторите за тестови — пребарајте за шаблони на е-пошта, телефон и ID.
  2. Проверете ги продукциските дневнички датотеки во директориумите на проектите за кориснички ID-броеви.
  3. Ажурирајте го .gitignore за да ги исклучите датотеките со дневници и датотеките специфични за средини со податоци.
  4. Заменете ги реалните записи со синтетички генератори како Faker или Mimesis.

Самата ревизија честопати открива години на акумулирана изложеност. Еден тим пронашол реални е-пошти на клиенти во 14 тест-датотеки создадени од шест различни програмери во текот на три години. Никој од програмерите немал намера да ги остави таму.

Пред која било сесија со AI помошник:

  • Извршете откривање лични податоци на датотеките пред нивното споделување.
  • За IDE алатки како Cursor: исклучете ги тест-директориумите од индексирање.
  • За алатки засновани на чет: прегледајте го залепениот код за лични информации.

Додаток на MCP Server:

anonym.legal MCP Server го поврзува откривањето лични податоци со Claude Desktop и Cursor. Чекорите се едноставни:

  1. Отворете датотека во уредувачот.
  2. Повикајте го MCP Server: откријте лични податоци во датотеката.
  3. Прегледајте ги обележаните ставки.
  4. Редактирајте на место.
  5. Споделете ја чистата датотека со AI алатката.

Ова додава под 30 секунди по датотека. Го отстранува рачниот товар на "проверка за лични податоци". Видете ги нашите планови за цени за да го додадете пристапот до MCP Server на вашиот тим.

Синтетички влезни вредности — трајното решение:

Никогаш не користете реални редови во фиксаторите за тестови. Синтетичките библиотеки произведуваат реалистични влезни вредности без изложување на реални корисници. Faker (Python/Node.js), Factory Boy (Python) и Bogus (.NET) генерираат валидни влезни вредности за секоја шема. Секоја библиотека ви овозможува да поставите локација и да излезете со реалистични имиња, е-пошти и телефонски броеви — сите лажни.

Студија на случај: SaaS тимот наоѓа реални записи во Cursor

Наодот дојде за време на ревизија за GDPR. Еден SaaS тим кој користел Cursor пронашол реални е-пошти на клиенти во фиксаторите за единечни тестови. Програмерот копирал 50 клиентски редови од продукцијата пред 18 месеци. Тие редови биле commit-ирани во контрола на верзии и индексирани од Cursor.

Во текот на 18 месеци, Cursor пристапил до фиксаторските датотеки приближно 11.000 пати во текот на 8 IDE сесии на програмери. Секоја сесија можно е да испратила содржина на фиксаторот до Cursor API.

Она што тимот го направил:

  1. Ги заменил сите 50 реални редови со лажни влезни вредности генерирани со Faker.
  2. Го ажурирал .gitignore за да ги исклучи датотеките со дневници.
  3. Додал MCP Server за откривање лични податоци на барање пред споделување на кодот.
  4. Воспоставил норма: никакви продукциски записи во ниту една commit-ирана датотека.

MCP Server бил клучната промена. Програмерите сега извршуваат откривање пред Cursor сесии на код наменет за клиенти. Нула дополнителен напор покрај повикот на MCP.

Прочитајте повеќе во нашиот оддел студии на случај.

Извори

GitHub Security Research 2024. VERIFIED-EXTERNAL.

GDPR член 28. VERIFIED-EXTERNAL.

HIPAA BAA упатство. VERIFIED-EXTERNAL.

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.