anonym.legal

By · Last updated 2026-06-05

Terug na BlogKI-sekuriteit

KI-Kodeerassistente Lek Produksie-PII

Eenheidtoets-glyware met regte klientrekords. Logboekleers met produksiedata vir foutopsporing. GitHub het in 2024 39 miljoen geheime lekke gevind.

June 5, 20268 min lees
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Hoekom KI-Kodeergereedskap Regte Klientrekords Lek

Die meeste PII-lekke van ontwikkelingspanne is nie skendinge nie. Hulle is newee-effekte van daaglikse werk.

Produksiedata betree toetsomgewings. Van daar bereik dit KI-kodeergereedskap — en die verskaffers wat dit bedryf.

GitHub se 2025-navorsing het dit bevestig. Ontwikkelaars het 39 miljoen geheime in openbare opslagplase gedurende 2024 gelek. API-sleutels en persoonlike besonderhede het almal verskyn. Die meeste het gekom van toetsglyware en foutopsporingslogboeke. Sien ons sekuriteitsbeveiligings-oorsig om te leer hoe spanne hierdie risiko aanspreek.

Bygewerk vir 2026: KI-kodeergereedskap-aanvaarding het vinnig gegroei. So ook die blootstellingsoppervlak.

Hoe Regte Rekords Ontwikkelingsomgewings Betree

Die roetes is algemeen en voorspelbaar.

Toetsglyware-leers: Eenheidtoetse het realistiese invoere nodig. Die vinnigste pad is om rye uit produksie te kopieer. Die ontwikkelaar beplan dit "later" te vervang. Later kom selde. Regte e-posse en rekening-ID's bly deur dosyne vastleggings.

Foutopsporingslogboeke: 'n Fout kan nie plaaslik herproduseer word nie. 'n Ontwikkelaar trek 'n logboek van die lewende stelsel. Daardie logboek het klient-e-posse, IP-adresse, en sessie-tokens. Die leer land in die projekwortel en word vasgeleg.

Migrasie-skripte: Skemavoeranders sluit voorbeeldrye vir toetsomgewings in. 'n DBA kopieer regte rye as voorbeelde. Die skrip — met genuine klientinvoere — betree weergawebeheer.

Dokumente en README-leers: Gebruiksvoorbeelde gebruik "realistiese" invoere. Realisties beteken dikwels gekopieer van regte gebruikers. Die README eindig met regte bestelID's en rekeningadresse.

Konfigurasie-leers: Ontwikkelings-konfigs dra stagingsleutels wat regte klientdata bereik. Hierdie leers word vasgeleg met geheime daarin.

Wat KI-Assistente Werklik Ontvang

Wanneer ontwikkelaars KI-kodeergereedskap gebruik, stuur veelvuldige kanale private inligting uit.

Hele-leer-konteks: Die gereedskap mag hele leers ontvang. Dit sluit toetsglyware met regte invoere, logboekuittreksels, of konfigurasie-leers met lewende sleutels in.

Knipbord-plaksels: Ontwikkelaars plak kode in gesels vir hersiening. Die omliggende konteks het dikwels klientbesonderhede daarin.

IDE-indeksering: Cursor en GitHub Copilot indekseer plaaslike leers vir konteks. Enige projekleer met regte rye word deel van daardie indeks.

Foutboodskappe: Ontwikkelaars plak stapelspore in KI-gesels wanneer hulle foute opsoor. Stapelspore kan klient-ID's dra.

Elke kanaal stuur private inligting na die KI-verskaffer se API. Dit skep GDPR- en HIPAA-risiko. Sien ons nakomingsoorsig vir hoe hierdie reels op ontwikkelingsgereedskap van toepassing is.

GDPR en HIPAA: Sleutelfunksies vir Ontwikkelingspartye

Hierdie reels geld vir KI-kodeergereedskapgebruik.

GDPR Artikel 28 — Verwerker: Die stuur van persoonlike inligting na 'n KI-verskaffer maak daardie verskaffer 'n dataverwerker. 'n Dataverwerkingsooreenkoms is vereis. Die meeste verskaffers bied DPA's aan. Ontwikkelaars wat KI-gereedskap buite formele aankoop gebruik, mag 'n getekende DPA ontbreek.

GDPR Artikel 6 — Wettige Basis: Ontwikkelingstoetsing vereis 'n wettige basis vir die verwerking van persoonlike inligting. Wettige belang mag van toepassing wees — maar dit vereis 'n balanseringstoets. Regte klientrye gebruik wanneer nep-rye sou werk, misluk daardie toets.

HIPAA — BAA: Gesondheidsorgontwikkelaars moet 'n Besigheidsvennoot-ooreenkoms met die KI-verskaffer he. OpenAI, Anthropic, en GitHub Copilot bied BAA's vir ondernemingsgebruikers aan. Individuele gebruik buite 'n ondernemingsplan mag nie gedek wees nie.

Minimering: Regte klientinvoere in toetsglyware breek die minimeringreel. Nep-rye dien dieselfde doel sonder die privaatheidskoste.

Ons Gereelde Vrae dek algemene vrae oor hierdie reels.

Praktiese Stappe vir Ontwikkelingspartye

Begink met 'n vinnige oudit. Die meeste spanne vind kwessies binne die eerste uur.

Onmiddellike aksies:

  1. Oudit toetsglyware — soek vir e-pos, telefoon, en ID-patrone.
  2. Kontroleer produksielogboekleers in projekgidse vir klient-ID's.
  3. Dateer .gitignore by om logboekleers en omgewingspesifieke dataLeers uit te sluit.
  4. Vervang regte invoere met sintetiese generators soos Faker of Mimesis.

Die oudit alleen bring dikwels jare se versamelde blootstelling aan die lig. Een span het regte klient-e-posse in 14 toetsleers gevind wat deur ses verskillende ontwikkelaars oor drie jaar geskep is. Geen van die ontwikkelaars het bedoel om dit te laat staan nie.

Voor enige KI-assistent-sessie:

  • Loop PII-opsporing op leers voor jy dit deel.
  • Vir IDE-gereedskap soos Cursor: sluit toetsgidse uit indeksering uit.
  • Vir klets-gebaseerde gereedskap: hersien geplakte kode vir persoonlike inligting.

MCP-bediener-byvoeging:

Die anonym.legal MCP-bediener verbind PII-opsporing in Claude Desktop en Cursor. Die stappe is eenvoudig:

  1. Maak 'n leer in die redigeerder oop.
  2. Roep die MCP-bediener: spoor PII in die leer op.
  3. Hersien gemerkde items.
  4. Redigeer ter plaatse.
  5. Deel die skoon leer met die KI-gereedskap.

Dit voeg minder as 30 sekondes per leer by. Dit verwyder die handmatige "kontroleer vir PII"-las. Sien ons prysplanne om MCP-bediener-toegang by jou span te voeg.

Sintetiese invoere — die blywende oplossing:

Gebruik nooit regte rye in toetsglyware nie. Sintetiese biblioteke produseer realistiese invoere sonder om regte gebruikers bloot te stel. Faker (Python/Node.js), Factory Boy (Python), en Bogus (.NET) genereer geldige invoere vir enige skema. Elke biblioteek laat jou toe om 'n ligging te saai en realistiese name, e-posse, en telefoonnommers uit te voer — almal nep.

Gevallestudie: SaaS-Span Vind Regte Invoere in Cursor

Die vonds het tydens 'n GDPR-oudit gekom. 'n SaaS-span wat Cursor gebruik het, het regte klient-e-posse in eenheidtoets-glyware gevind. 'n Ontwikkelaar het 50 klientrye van produksie 18 maande gelede gekopieer. Daardie rye is na weergawebeheer vasgeleg en deur Cursor geindekseer.

Oor 18 maande het Cursor die glyware-leers sowat 11,000 keer oor 8 ontwikkelaar-IDE-sessies bereik. Elke sessie mag glywarsinhoud na die Cursor API gestuur het.

Wat die span gedoen het:

  1. Vervang alle 50 regte rye met Faker-gegenereerde nep-invoere.
  2. Dateer .gitignore by om logboekleers uit te sluit.
  3. Het MCP-bediener bygevoeg vir aanvraag-PII-opsporing voor die deel van kode.
  4. Het 'n norm gestel: geen produksie-invoere in enige vasgeleg leer nie.

Die MCP-bediener was die sleutelverandering. Ontwikkelaars loop nou opsporing voor Cursor-sessies op klientgeorigte kode. Nul ekstra moeite bo die MCP-oproep.

Lees meer in ons gevallestudies afdeling.

Bronne

GitHub Sekuriteitsnavorsing 2024. GEVERIFIEER-EKSTERN.

GDPR Artikel 28. GEVERIFIEER-EKSTERN.

HIPAA BAA Leiding. GEVERIFIEER-EKSTERN.

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.