By · Last updated 2026-06-05

Kembali ke BlogKeselamatan AI

Pembantu Pengekodan AI Membocorkan PII Pengeluaran

Lekapan ujian unit dengan rekod pelanggan sebenar. Fail log dengan data pengeluaran untuk penyahpepijatan. GitHub menemui 39 juta rahsia yang dibocorkan pada 2024.

June 5, 20268 min baca
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Mengapa Alat Pengekodan AI Membocorkan Rekod Pelanggan Sebenar

Kebanyakan kebocoran PII daripada pasukan pembangunan bukan pelanggaran. Ia adalah kesan sampingan kerja harian.

Data pengeluaran memasuki persekitaran ujian. Dari sana, ia sampai kepada alat pengekodan AI — dan vendor yang menjalankannya.

Penyelidikan GitHub 2025 mengesahkan ini. Pembangun membocorkan 39 juta rahsia dalam repositori awam semasa 2024. Kunci API dan butiran peribadi semuanya muncul. Kebanyakan datang daripada lekapan ujian dan log nyahpepijat. Lihat gambaran keseluruhan perlindungan keselamatan kami untuk mengetahui cara pasukan menangani risiko ini.

Dikemas kini untuk 2026: Penggunaan alat pengekodan AI telah berkembang pesat. Begitu juga permukaan pendedahan.

Cara Rekod Sebenar Memasuki Persekitaran Pembangunan

Laluan adalah biasa dan boleh diramal.

Fail lekapan ujian: Ujian unit memerlukan input yang realistik. Laluan terpantas adalah menyalin baris daripada pengeluaran. Pembangun merancang untuk menggantikannya "kemudian." Kemudian jarang tiba. E-mel sebenar dan ID akaun kekal melalui berdozen komit.

Log nyahpepijat: Pepijat tidak dapat dihasilkan semula secara tempatan. Pembangun menarik log daripada sistem langsung. Log itu mengandungi e-mel pelanggan, alamat IP, dan token sesi. Fail itu mendarat di akar projek dan dikomit.

Skrip migrasi: Perubahan skema menyertakan baris sampel untuk persekitaran ujian. DBA menyalin baris sebenar sebagai sampel. Skrip — dengan entri pelanggan tulen — memasuki kawalan versi.

Dokumen dan fail README: Contoh penggunaan menggunakan input yang "realistik." Realistik sering bermakna disalin daripada pengguna sebenar. README berakhir dengan ID pesanan dan alamat akaun sebenar.

Fail konfigurasi: Konfigurasi pembangunan membawa kunci pementasan yang mencapai data pelanggan sebenar. Fail-fail ini dikomit dengan rahsia di dalamnya.

Apa yang Pembantu AI Sebenarnya Terima

Apabila pembangun menggunakan alat pengekodan AI, berbilang saluran menghantar maklumat peribadi keluar.

Konteks keseluruhan fail: Alat mungkin menerima keseluruhan fail. Itu termasuk lekapan ujian dengan entri sebenar, petikan log, atau fail konfigurasi dengan kunci langsung.

Tampal papan klip: Pembangun menampal kod ke dalam sembang untuk semakan. Konteks sekeliling sering mengandungi butiran pelanggan di dalamnya.

Pengindeksan IDE: Cursor dan GitHub Copilot mengindeks fail tempatan untuk konteks. Sebarang fail projek dengan baris sebenar menjadi sebahagian daripada indeks tersebut.

Mesej ralat: Pembangun menampal jejak tindanan ke dalam sembang AI semasa penyahpepijatan. Jejak tindanan boleh membawa ID pelanggan.

Setiap saluran menghantar maklumat peribadi ke API vendor AI. Ini mencipta risiko GDPR dan HIPAA. Lihat gambaran keseluruhan pematuhan kami untuk cara peraturan ini terpakai kepada alat pembangunan.

GDPR dan HIPAA: Fakta Utama untuk Pasukan Pembangunan

Peraturan-peraturan ini terpakai kepada penggunaan alat pengekodan AI.

Artikel 28 GDPR — Pemproses: Menghantar maklumat peribadi kepada vendor AI menjadikan vendor tersebut pemproses data. Perjanjian Pemprosesan Data diperlukan. Kebanyakan vendor menawarkan DPA. Pembangun yang menggunakan alat AI di luar pembelian formal mungkin tidak mempunyai DPA yang ditandatangani.

Artikel 6 GDPR — Asas Sah: Ujian pembangunan memerlukan asas sah untuk memproses maklumat peribadi. Kepentingan sah mungkin terpakai — tetapi ia memerlukan ujian pengimbangan. Menggunakan baris pelanggan sebenar apabila baris palsu boleh berfungsi gagal ujian tersebut.

HIPAA — BAA: Pembangun penjagaan kesihatan mesti mempunyai Perjanjian Rakan Perniagaan dengan vendor AI. OpenAI, Anthropic, dan GitHub Copilot menawarkan BAA untuk pengguna perusahaan. Penggunaan individu di luar pelan perusahaan mungkin tidak diliputi.

Minimisasi: Entri pelanggan sebenar dalam lekapan ujian melanggar peraturan minimisasi. Baris palsu berfungsi sama tanpa kos privasi.

Soalan Lazim kami merangkumi soalan biasa tentang peraturan-peraturan ini.

Langkah Praktikal untuk Pasukan Pembangunan

Mulakan dengan audit cepat. Kebanyakan pasukan menemui isu dalam jam pertama.

Tindakan segera:

  1. Audit lekapan ujian — cari corak e-mel, telefon, dan ID.
  2. Semak fail log pengeluaran dalam direktori projek untuk ID pelanggan.
  3. Kemas kini .gitignore untuk mengecualikan fail log dan fail data khusus persekitaran.
  4. Gantikan entri sebenar dengan penjana sintetik seperti Faker atau Mimesis.

Audit sahaja sering mendedahkan tahun pendedahan terkumpul. Satu pasukan menemui e-mel pelanggan sebenar dalam 14 fail ujian yang dicipta oleh enam pembangun berbeza selama tiga tahun. Tiada satu pun daripada pembangun berniat untuk meninggalkannya di sana.

Sebelum sebarang sesi pembantu AI:

  • Jalankan pengesanan PII pada fail sebelum berkongsi.
  • Untuk alat IDE seperti Cursor: kecualikan direktori ujian daripada pengindeksan.
  • Untuk alat berasaskan sembang: semak kod yang ditampal untuk maklumat peribadi.

Tambahan MCP Server:

MCP Server anonym.legal menghubungkan pengesanan PII ke dalam Claude Desktop dan Cursor. Langkah-langkahnya mudah:

  1. Buka fail dalam editor.
  2. Panggil MCP Server: kesan PII dalam fail.
  3. Semak item yang ditandai.
  4. Redaksi di tempat.
  5. Kongsi fail yang bersih dengan alat AI.

Ini menambah kurang daripada 30 saat setiap fail. Ia menghilangkan beban manual "semak PII". Lihat pelan harga kami untuk menambah akses MCP Server kepada pasukan anda.

Input sintetik — penyelesaian yang kekal:

Jangan sekali-kali gunakan baris sebenar dalam lekapan ujian. Pustaka sintetik menghasilkan input realistik tanpa mendedahkan pengguna sebenar. Faker (Python/Node.js), Factory Boy (Python), dan Bogus (.NET) menjana input yang sah untuk sebarang skema. Setiap pustaka membolehkan anda menetapkan lokaliti dan mengeluarkan nama, e-mel, dan nombor telefon yang realistik — semuanya palsu.

Kajian Kes: Pasukan SaaS Menemui Entri Sebenar dalam Cursor

Dapatan itu berlaku semasa audit GDPR. Pasukan SaaS yang menggunakan Cursor menemui e-mel pelanggan sebenar dalam lekapan ujian unit. Seorang pembangun telah menyalin 50 baris pelanggan daripada pengeluaran 18 bulan sebelumnya. Baris-baris tersebut telah dikomit ke kawalan versi dan diindeks oleh Cursor.

Selama 18 bulan, Cursor mengakses fail lekapan kira-kira 11,000 kali merentasi 8 sesi IDE pembangun. Setiap sesi mungkin telah menghantar kandungan lekapan ke API Cursor.

Apa yang pasukan lakukan:

  1. Menggantikan semua 50 baris sebenar dengan input palsu yang dijana oleh Faker.
  2. Mengemas kini .gitignore untuk mengecualikan fail log.
  3. Menambah MCP Server untuk pengesanan PII atas permintaan sebelum berkongsi kod.
  4. Menetapkan norma: tiada entri pengeluaran dalam sebarang fail yang dikomit.

MCP Server adalah perubahan utama. Pembangun kini menjalankan pengesanan sebelum sesi Cursor pada kod berhadapan pelanggan. Sifar usaha tambahan di luar panggilan MCP.

Baca lebih lanjut dalam bahagian kajian kes kami.

Sumber

Penyelidikan Keselamatan GitHub 2024. VERIFIED-EXTERNAL.

Artikel GDPR 28. VERIFIED-EXTERNAL.

Panduan BAA HIPAA. VERIFIED-EXTERNAL.

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.