By · Last updated 2026-06-05

Atpakaļ uz BloguAI Drošība

AI kodēšanas asistenti noplūdina ražošanas PII

Vienības testu piestiprināmie faili ar reāliem klientu ierakstiem. Žurnālu faili ar ražošanas datiem atkļūdošanai. GitHub 2024. gadā atklāja 39 miljonus noplūdušu noslēpumu.

June 5, 20268 min lasīšanai
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Kāpēc AI kodēšanas rīki noplūdina reālus klientu ierakstus

Vairums PII noplūžu no izstrādes komandām nav pārkāpumi. Tie ir ikdienas darba blakusefekti.

Ražošanas dati nonāk testēšanas vidēs. No turienes tie nonāk AI kodēšanas rīkos — un to pārdevējiem, kas tos darbina.

GitHub 2025. gada pētījums to apstiprināja. Izstrādātāji 2024. gadā publiskajos repozitorijos noplūdināja 39 miljonus noslēpumu. Tajā bija API atslēgas un personas dati. Vairums nāca no testa piestiprināmajiem failiem un atkļūdošanas žurnāliem. Skatiet mūsu drošības aizsardzības pasākumu pārskatu, lai uzzinātu, kā komandas risina šo risku.

Atjaunināts 2026. gadam: AI kodēšanas rīku ieviešana ir strauji pieaugusi. Tāpat arī iedarbības virsma.

Kā reālie ieraksti nonāk izstrādes vidēs

Ceļi ir izplatīti un paredzami.

Testa piestiprināmie faili: Vienības testiem nepieciešamas reālistiskas ievades. Ātrākais ceļš ir rindu kopēšana no ražošanas. Izstrādātājs plāno tās "vēlāk" aizstāt. Vēlāk reti pienāk. Reālie e-pasti un kontu ID paliek caur desmitiem komitu.

Atkļūdošanas žurnāli: Kļūdu nevar reproducēt lokāli. Izstrādātājs izvelk žurnālu no dzīvās sistēmas. Šajā žurnālā ir klientu e-pasti, IP adreses un sesijas marķieri. Fails nonāk projekta saknē un tiek ierakstīts.

Migrācijas skripti: Shēmas maiņas ietver paraugu rindas testēšanas vidēm. DBA kopē reālās rindas kā paraugus. Skripts — ar īstiem klientu ierakstiem — nonāk versiju kontrolē.

Dokumenti un README faili: Lietošanas piemēri izmanto "reālistiskas" ievades. Reālistisks bieži nozīmē nokopēts no reāliem lietotājiem. README beidzas ar reāliem pasūtījumu ID un kontu adresēm.

Konfigurācijas faili: Dev konfigurācijas satur iestudēšanas atslēgas, kas sasniedz reālus klientu datus. Šie faili tiek ierakstīti ar noslēpumiem iekšā.

Ko AI asistenti faktiski saņem

Kad izstrādātāji izmanto AI kodēšanas rīkus, vairāki kanāli nosūta privātu informāciju uz āru.

Visu failu konteksts: Rīks var saņemt veselus failus. Tas ietver testa piestiprināmos failus ar reāliem ierakstiem, žurnāla izrakstiem vai konfigurācijas failiem ar dzīvajām atslēgām.

Starpliktuves ielīmēšana: Izstrādātāji pārskatīšanai ielīmē kodu tērzēšanā. Apkārtējais konteksts bieži satur klientu detaļas tajā.

IDE indeksēšana: Cursor un GitHub Copilot indeksē lokālos failus kontekstam. Jebkurš projekta fails ar reālajām rindām kļūst par šī indeksa daļu.

Kļūdu ziņojumi: Izstrādātāji ielīmē steka izsekojumus AI tērzēšanā atkļūdošanas laikā. Steka izsekojumi var saturēt klientu ID.

Katrs kanāls nosūta privātu informāciju uz AI pārdevēja API. Tas rada GDPR un HIPAA risku. Skatiet mūsu atbilstības pārskatu, lai uzzinātu, kā šie noteikumi attiecas uz izstrādes rīkiem.

GDPR un HIPAA: Galvenie fakti izstrādes komandām

Šie noteikumi attiecas uz AI kodēšanas rīku lietošanu.

GDPR 28. pants — Apstrādātājs: Personas informācijas nosūtīšana AI pārdevējam padara šo pārdevēju par datu apstrādātāju. Ir nepieciešams datu apstrādes līgums. Vairums pārdevēju piedāvā DPA. Izstrādātājiem, kas izmanto AI rīkus ārpus formālas iegādes, var trūkt parakstīta DPA.

GDPR 6. pants — Juridiskais pamats: Izstrādes testēšanai ir nepieciešams juridiskais pamats personas informācijas apstrādei. Likumīgas intereses var piemēroties — taču tam nepieciešams līdzsvarošanas tests. Reālu klientu rindu izmantošana, kad faktu rindas kalpotu tam pašam mērķim, neizdodas šo testu.

HIPAA — BAA: Veselības aprūpes izstrādātājiem ar AI pārdevēju jābūt biznesa partnera līgumam. OpenAI, Anthropic un GitHub Copilot piedāvā BAA uzņēmuma lietotājiem. Individuāla lietošana ārpus uzņēmuma plāna var nebūt aptvertas.

Minimizācija: Reāli klientu ieraksti testa piestiprināmajos failos pārkāpj minimizācijas noteikumu. Fiktīvas rindas kalpo tam pašam mērķim bez privātuma izmaksām.

Mūsu BUJ aptver izplatītus jautājumus par šiem noteikumiem.

Praktiskie soļi izstrādes komandām

Sāciet ar ātru auditu. Vairums komandu atrod problēmas pirmās stundas laikā.

Tūlītējas darbības:

  1. Auditējiet testa piestiprināmos failus — meklējiet e-pasta, tālruņa un ID rakstus.
  2. Pārbaudiet ražošanas žurnāla failus projektu direktorijos klientu ID.
  3. Atjauniniet .gitignore, lai izslēgtu žurnāla failus un videi specifiskus datu failus.
  4. Aizstājiet reālos ierakstus ar sintētiskajiem ģeneratoriem, piemēram, Faker vai Mimesis.

Audits vien bieži atklāj gadus ilgu uzkrātu iedarbību. Viena komanda atrada reālus klientu e-pastus 14 testa failos, ko izveidoja seši dažādi izstrādātāji trīs gadu laikā. Neviens no izstrādātājiem nebija paredzējis tos atstāt tur.

Pirms jebkuras AI asistenta sesijas:

  • Palaidiet PII noteikšanu failiem pirms to kopīgošanas.
  • IDE rīkiem, piemēram, Cursor: izslēdziet testa direktorijus no indeksēšanas.
  • Tērzēšanas bāzes rīkiem: pārskatiet ielīmēto kodu personas informācijai.

MCP servera papildinājums:

anonym.legal MCP serveris savieno PII noteikšanu ar Claude Desktop un Cursor. Soļi ir vienkārši:

  1. Atveriet failu redaktorā.
  2. Izsauciet MCP serveri: noteiciet PII failā.
  3. Pārskatiet atzīmētos vienumus.
  4. Rediģējiet vietā.
  5. Kopīgojiet tīro failu ar AI rīku.

Tas pievieno mazāk nekā 30 sekundes vienam failam. Tas novērš manuālo "pārbaudīt PII" nastu. Skatiet mūsu cenu plānus, lai pievienotu MCP servera piekļuvi savai komandai.

Sintētiskie ievadi — ilgstošais risinājums:

Nekad neizmantojiet reālās rindas testa piestiprināmajos failos. Sintētiskās bibliotēkas ražo reālistiskas ievades, nepakļaujot reālos lietotājus. Faker (Python/Node.js), Factory Boy (Python) un Bogus (.NET) ģenerē derīgas ievades jebkurai shēmai. Katra bibliotēka ļauj iestatīt lokalizāciju un izvadīt reālistiskus vārdus, e-pastus un tālruņu numurus — visi ir fiktīvi.

Gadījuma izpēte: SaaS komanda atrod reālus ierakstus Cursor

Atradums notika GDPR audita laikā. SaaS komanda, kas izmantoja Cursor, atrada reālus klientu e-pastus vienības testu piestiprināmajos failos. Izstrādātājs bija nokopējis 50 klientu rindas no ražošanas pirms 18 mēnešiem. Šīs rindas tika ierakstītas versiju kontrolē un indeksētas ar Cursor.

18 mēnešu laikā Cursor piekļuva piestiprināmo failu saturam aptuveni 11 000 reižu 8 izstrādātāju IDE sesijās. Katra sesija var būt nosūtījusi piestiprināmo failu saturu uz Cursor API.

Ko komanda darīja:

  1. Aizstāja visas 50 reālās rindas ar Faker ģenerētām fiktīvām ievadēm.
  2. Atjaunināja .gitignore, lai izslēgtu žurnāla failus.
  3. Pievienoja MCP serveri pieprasījumam PII noteikšanai pirms koda kopīgošanas.
  4. Noteica normu: nav ražošanas ierakstu nevienā ierakstītajā failā.

MCP serveris bija galvenās izmaiņas. Izstrādātāji tagad palaiž noteikšanu pirms Cursor sesijām uz klientu kodu. Nulle papildu pūļu, izņemot MCP izsaukumu.

Lasiet vairāk mūsu gadījumu izpētes sadaļā.

Avoti

GitHub drošības pētījums 2024. PĀRBAUDĪTS-ĀRĒJS.

GDPR 28. pants. PĀRBAUDĪTS-ĀRĒJS.

HIPAA BAA norādījumi. PĀRBAUDĪTS-ĀRĒJS.

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.