By · Last updated 2026-06-05

Rudi kwa BlogUsalama wa AI

Wasaidizi wa Kuandika Msimbo wa AI Wanavuja PII za Uzalishaji

Faili za majaribio zenye kumbukumbu za kweli za wateja. Faili za kumbukumbu zenye data za uzalishaji kwa utatuzi wa matatizo. GitHub ilibaini siri milioni 39 zilizovuja mwaka 2024.

June 5, 20268 dakika kusoma
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Kwa Nini Zana za Kuandika Msimbo za AI Zinavuja Kumbukumbu za Kweli za Wateja

Uvujaji mwingi wa PII kutoka kwa timu za wasanidi programu si ukiukaji. Ni athari za kazi ya kila siku.

Data za uzalishaji zinaingia mazingira ya majaribio. Kutoka hapo, zinafikia zana za kuandika msimbo za AI — na wauzaji wanaoziendesha.

Utafiti wa GitHub wa 2025 ulithibitisha hili. Wasanidi programu walivuja siri milioni 39 katika hazina za umma wakati wa 2024. Funguo za API na maelezo ya kibinafsi yote yalionekana. Mengi yalitoka kwa faili za majaribio na kumbukumbu za utatuzi wa matatizo. Angalia muhtasari wetu wa usalama kujua jinsi timu zinavyoshughulikia hatari hii.

Imesasishwa kwa 2026: Kupitishwa kwa zana za kuandika msimbo za AI kumekua haraka. Hivyo ndivyo uso wa mfiduo.

Jinsi Kumbukumbu za Kweli Zinavyoingia Mazingira ya Wasanidi Programu

Njia ni za kawaida na zinaweza kutabirika.

Faili za majaribio: Majaribio ya vitengo yanahitaji ingizo zinayofanana. Njia ya haraka zaidi ni kunakili safu kutoka kwa uzalishaji. Msanidi programu anapanga kuzibadilisha "baadaye." Baadaye mara chache huja. Barua pepe halisi na vitambulisho vya akaunti vinabaki kupitia makubaliano ya makumi.

Kumbukumbu za utatuzi wa matatizo: Hitilafu haiwezi kuiga ndani ya eneo. Msanidi programu anavuta kumbukumbu kutoka kwa mfumo hai. Kumbukumbu hiyo ina barua pepe za wateja, anwani za IP, na tokeni za kikao. Faili inawasili kwenye mzizi wa mradi na kukubaliana.

Hati za uhamiaji: Mabadiliko ya muundo yanajumuisha safu za sampuli kwa mazingira ya majaribio. DBA hunakili safu za kweli kama sampuli. Hati — yenye viingilio vya kweli vya wateja — inaingiza udhibiti wa toleo.

Hati na faili za README: Mifano ya matumizi inatumia ingizo "zinazofanana na ukweli." Zinazofanana na ukweli mara nyingi kunamaanisha kunanakiliwa kutoka kwa watumiaji wa kweli. README inaisha na vitambulisho vya agizo halisi na anwani za akaunti.

Faili za usanidi: Usanidi wa wasanidi programu hubeba funguo za majaribio ambazo zinafikia data halisi ya wateja. Faili hizi zinakubaliana na siri ndani yake.

Wasaidizi wa AI Wanachopokea Kweli Kweli

Wasanidi programu wanapotumia zana za kuandika msimbo za AI, njia nyingi zinatuma taarifa za kibinafsi nje.

Muktadha wa faili nzima: Zana inaweza kupokea faili nzima. Hii inajumuisha faili za majaribio zenye viingilio vya kweli, dondoo la kumbukumbu, au faili za usanidi zenye funguo hai.

Kubandika kutoka kwa ubao wa kunakili: Wasanidi programu wanabandika msimbo katika mazungumzo kwa ukaguzi. Muktadha unaozunguka mara nyingi una maelezo ya wateja ndani yake.

Kupitia faharasa ya IDE: Cursor na GitHub Copilot hupitia faili za ndani kwa muktadha. Faili yoyote ya mradi yenye safu za kweli inakuwa sehemu ya faharasa hiyo.

Ujumbe wa makosa: Wasanidi programu wanabandika maagizo ya mpangilio wa makosa katika mazungumzo ya AI wakati wa utatuzi wa matatizo. Maagizo ya mpangilio wa makosa yanaweza kubeba vitambulisho vya wateja.

Kila njia inatuma taarifa za kibinafsi kwa API ya muuzaji wa AI. Hii inaunda hatari ya GDPR na HIPAA. Angalia muhtasari wetu wa ufuatano kuhusu jinsi kanuni hizi zinavyotumika kwa zana za wasanidi programu.

GDPR na HIPAA: Ukweli Muhimu kwa Timu za Wasanidi Programu

Kanuni hizi zinatumika kwa matumizi ya zana za kuandika msimbo za AI.

Ibara ya 28 ya GDPR — Mchakataji: Kutuma taarifa za kibinafsi kwa muuzaji wa AI kunafanya muuzaji huyo kuwa mchakataji wa data. Makubaliano ya Uchakataji wa Data yanahitajika. Wauzaji wengi wanatoa DPA. Wasanidi programu wanaotumia zana za AI nje ya ununuzi rasmi wanaweza kukosa DPA iliyosainiwa.

Ibara ya 6 ya GDPR — Msingi wa Kisheria: Majaribio ya wasanidi programu yanahitaji msingi wa kisheria wa kuchakata taarifa za kibinafsi. Maslahi halisi yanaweza kutumika — lakini inahitaji mtihani wa usawazishaji. Kutumia safu za kweli za wateja wakati za bandia zingeweza kufanya kazi inashindwa mtihani huo.

HIPAA — BAA: Wasanidi programu wa afya lazima wana Makubaliano ya Mshirika wa Biashara na muuzaji wa AI. OpenAI, Anthropic, na GitHub Copilot wanatoa BAA kwa watumiaji wa biashara. Matumizi ya mtu binafsi nje ya mpango wa biashara yanaweza kutofunikwa.

Upunguzaji: Viingilio vya kweli vya wateja katika faili za majaribio vinakiuka kanuni ya upunguzaji. Safu za bandia zinafanya lengo hilo hilo bila gharama ya faragha.

Maswali ya kawaida kuhusu kanuni hizi yanashughulikiwa katika Maswali Yanayoulizwa Mara Kwa Mara.

Hatua za Vitendo kwa Timu za Wasanidi Programu

Anza na ukaguzi wa haraka. Timu nyingi zinapata masuala ndani ya saa ya kwanza.

Vitendo vya haraka:

  1. Ukaguzi wa faili za majaribio — tafuta mifumo ya barua pepe, simu, na vitambulisho.
  2. Angalia faili za kumbukumbu za uzalishaji katika foleni za mradi kwa vitambulisho vya wateja.
  3. Sasisha .gitignore ili kuondoa faili za kumbukumbu na faili za data zinazotegemea mazingira.
  4. Badilisha viingilio vya kweli na vizalishaji vya synthetic kama Faker au Mimesis.

Ukaguzi peke yake mara nyingi hufichua miaka ya mfiduo uliokusanyika. Timu moja ilibaini barua pepe za kweli za wateja katika faili 14 za majaribio zilizotengenezwa na wasanidi programu sita tofauti kwa miaka mitatu. Hakuna wasanidi programu hao waliokusudia kuziacha huko.

Kabla ya kikao chochote cha msaidizi wa AI:

  • Endesha ugunduzi wa PII kwenye faili kabla ya kuzishiriki.
  • Kwa zana za IDE kama Cursor: weka foleni za majaribio nje ya faharasa.
  • Kwa zana za mazungumzo: kagua msimbo uliobandikwa kwa taarifa za kibinafsi.

Kuongeza ya MCP Server:

anonym.legal MCP Server inaunganisha ugunduzi wa PII kwenye Claude Desktop na Cursor. Hatua ni rahisi:

  1. Fungua faili katika mhariri.
  2. Ita MCP Server: gundua PII katika faili.
  3. Kagua vitu vilivyoashiriwa.
  4. Katia mahali hapo.
  5. Shiriki faili safi na zana ya AI.

Hii inaongeza chini ya sekunde 30 kwa kila faili. Inaondoa mzigo wa mkono wa "angalia PII". Angalia mipango yetu ya bei kuongeza ufikiaji wa MCP Server kwa timu yako.

Ingizo la synthetic — suluhisho la kudumu:

Usitumie safu za kweli katika faili za majaribio kamwe. Maktaba za synthetic zinazalisha ingizo zinazofanana bila kumfichua mtumiaji wa kweli. Faker (Python/Node.js), Factory Boy (Python), na Bogus (.NET) huzalisha ingizo halali kwa muundo wowote. Kila maktaba inakuruhusu kupanda eneo la lugha na kutoa majina, barua pepe, na nambari za simu zinazofanana — zote bandia.

Utafiti wa Hali: Timu ya SaaS Inabaini Viingilio vya Kweli katika Cursor

Ugunduzi ulikuja wakati wa ukaguzi wa GDPR. Timu ya SaaS inayotumia Cursor ilibaini barua pepe za kweli za wateja katika faili za majaribio za vitengo. Msanidi programu alikuwa amenakili safu 50 za wateja kutoka kwa uzalishaji miezi 18 iliyopita. Safu hizo zilikuwa zimekubaliwaa katika udhibiti wa toleo na kupitia faharasa na Cursor.

Kwa miezi 18, Cursor iliifikia faili za majaribio takriban mara 11,000 kote katika vikao vya IDE vya wasanidi programu 8. Kila kikao kingeweza kutuma maudhui ya majaribio kwa API ya Cursor.

Kilichofanya timu:

  1. Ilibadilisha safu zote 50 za kweli na ingizo bandia zilizozalishwa na Faker.
  2. Ilisasisha .gitignore ili kuondoa faili za kumbukumbu.
  3. Iliongeza MCP Server kwa ugunduzi wa PII wa mahitaji kabla ya kushiriki msimbo.
  4. Iliweka kawaida: hakuna viingilio vya uzalishaji katika faili yoyote iliyokubaliwa.

MCP Server ilikuwa mabadiliko muhimu. Wasanidi programu sasa wanafanya ugunduzi kabla ya vikao vya Cursor kwenye msimbo unaomhusu mteja. Hakuna juhudi za ziada zaidi ya simu ya MCP.

Soma zaidi katika sehemu yetu ya utafiti wa hali.

Vyanzo

Utafiti wa Usalama wa GitHub 2024. IMETHIBITISHWA-NJE.

Ibara ya 28 ya GDPR. IMETHIBITISHWA-NJE.

Mwongozo wa BAA wa HIPAA. IMETHIBITISHWA-NJE.

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.