By · Last updated 2026-06-05

Kembali ke BlogKeselamatan AI

Pencegahan PII Masa Nyata untuk Kebocoran Data AI

Apabila pekerja menaip nama pelanggan ke dalam ChatGPT, data tersebut terkeluar daripada kawalan organisasi secara serta-merta. DLP pasca-kejadian tidak dapat membatalkan perkara ini.

June 5, 20267 min baca
AI data preventionChatGPT PIIreal-time anonymizationDLP alternativeChrome Extension

Pencegahan PII Masa Nyata: Menghentikan Kebocoran Data AI Sebelum Berlaku.

Dikemas kini untuk 2026.

Pada Mac 2023, seorang jurutera Samsung menampal kod sumber ke dalam ChatGPT. Kod tersebut terkeluar daripada kawalan Samsung serta-merta. Tiada alat yang mengesannya tepat pada masanya. Kawalan keselamatan pasca-kejadian tidak dapat menghentikan kebocoran data AI. Satu peristiwa ini membuktikannya.

Alat pengesanan memberitahu anda apa yang berlaku selepas fakta. Pemeriksaan log, DLP titik akhir, dan log audit semuanya berfungsi dengan cara ini. Untuk kebocoran AI, selepas fakta sudah terlambat. Data sudah sampai ke model AI.

Skala Masalah

Kajian Cyberhaven 2025 melihat cara firma menggunakan AI. Penemuan adalah mengejutkan.

  • 11% daripada semua gesaan ChatGPT mengandungi data peribadi atau sensitif.
  • Pekerja biasa menggunakan alat AI 14 kali sehari.
  • Kakitangan guna-tinggi berinteraksi 30 hingga 50 kali sehari.
  • Pada kadar 11%, ini bermakna 3 hingga 5 hantar sensitif setiap pekerja sehari.

Di sebuah firma dengan 500 pekerja guna-tinggi, ini terkumpul kepada lebih 2,000 hantar sensitif sehari. Setiap satu boleh menjadi pelanggaran Artikel 83 GDPR. Risiko bukan sahaja undang-undang. Kepercayaan dan reputasi juga terancam.

Jenis kandungan sensitif biasa dalam gesaan AI termasuk perkara berikut.

  • Nama pelanggan dan butiran hubungan.
  • Nombor akaun dan rekod pembayaran.
  • Nota perubatan daripada pekerja kesihatan.
  • Butiran kes daripada peguam.
  • Nota ulasan kakitangan daripada pasukan HR.
  • Unjuran hasil atau jualan dalaman.

Kajian tidak memisahkan perkongsian sengaja daripada tidak sengaja. Kedua-duanya mewujudkan risiko undang-undang yang sama. Pekerja yang lupa membuang nama pelanggan menyebabkan pelanggaran yang sama seperti yang mengabaikan peraturan. Niat tidak mengubah hasilnya.

Mengapa Pengesanan Tidak Mencukupi

Pemeriksaan rangkaian tidak dapat membaca trafik HTTPS tanpa penyekatan TLS. Penyekatan TLS menambah beban dan menimbulkan kebimbangan privasi. Pelayar moden sering menolaknya.

Ejen DLP titik akhir memantau input papan klip dan ketukan kekunci. Tetapi mereka mengalami kelambatan. Pada masa ejen menanda corak, gesaan mungkin sudah dihantar.

Log audit vendor merekodkan apa yang dikongsi selepas ia dikongsi. Ia membantu dengan tindak balas. Ia tidak menghentikan kebocoran.

Latihan kakitangan adalah dasar, bukan kawalan. Kajian Cyberhaven menunjukkan 11% gesaan masih mengandungi kandungan sensitif di firma dengan dasar yang jelas. Latihan tidak menghentikan perkongsian tidak sengaja atau kesilapan semasa tugasan.

Menyekat alat AI menghapuskan keuntungan output. Pekerja kemudian menggunakan peranti atau akaun peribadi. Ini meletakkan kerja di luar sebarang pengawasan.

Tiada kaedah ini menghentikan kandungan sensitif daripada mencapai sistem AI dalam masa nyata.

Pencegahan di Titik Masuk

Satu-satunya pertahanan yang selamat ialah penyamaran sebelum gesaan dihantar. Nama pelanggan yang digantikan dengan [PERSON_1] sebelum meninggalkan pelayar tidak pernah dilihat oleh model AI.

Berikut adalah cara penyamaran sebaris berfungsi.

  1. Pekerja menaip e-mel pelanggan ke dalam Claude atau ChatGPT.
  2. tambahan pelayar mengesan data peribadi dalam masa nyata.
  3. Entiti ditanda dengan label jenis: PERSON, EMAIL_ADDRESS, ACCOUNT_NUMBER.
  4. Pekerja menyemak item yang ditanda.
  5. Satu klik menukar semua entiti kepada token.
  6. Gesaan yang disembunyikan dihantar.

AI mendapat gesaan seperti ini: "Pelanggan [PERSON_1] di [EMAIL_1] mempunyai akaun [ACCOUNT_1]."

AI mengendalikan permintaan. Ia tidak pernah melihat nama atau nombor sebenar. Pekerja mengetahui pelanggan sebenar daripada konteks.

Pendekatan ini mempunyai manfaat yang jelas.

  • Data peribadi kekal di luar sistem AI luaran.
  • Butiran pelanggan tidak ditambah ke set latihan AI.
  • Pekerja mengekalkan akses kepada alat AI. Output kekal tinggi.

Ia tidak menghentikan perkongsian sengaja jika pekerja memintas alat. Muat naik fail memerlukan aliran kerja berasingan. Tiada kawalan yang sempurna. Tetapi penyamaran sebaris membuang kumpulan tidak sengaja. Kumpulan itu membentuk kebanyakan insiden. Hasilnya ialah penurunan besar dalam risiko tanpa perubahan pada aliran kerja harian.

Kajian Kes Firma Guaman

Kakitangan firma guaman menggunakan Claude untuk menggubal nota kontrak. Kaedah mereka: salin bahagian kontrak, tampal ke dalam Claude, minta ringkasan.

Sebelum penggunaan Sambungan Chrome - 6 bulan pertama:

  • 3 insiden data pelanggan ditemui semasa semakan.
  • Setiap insiden: nama pelanggan dan nombor rujukan perkara muncul dalam gesaan.
  • Kesemua 3 adalah tidak sengaja.

Selepas penggunaan Sambungan Chrome - 6 bulan berikutnya:

  • Sifar insiden data pelanggan.
  • Kakitangan menerima amaran masa nyata apabila menampal bahagian dengan nama pelanggan.
  • Satu klik menggantikan "Johnson Controls Matter 2024-0347" dengan "[PERSON_1] Matter [REFERENCE_1]."
  • Kaedahnya kekal sama.

Rakan kongsi pengurusan berkata: "Kakitangan kami tahu dasar sebelum tambahan. Tambahan menjadikan pematuhan sebagai laluan mudah."

Lihat cara firma lain menangani ini dalam kajian kes kami. Semak kawalan dalam gambaran keselamatan.

Rekod GDPR untuk Pasukan Pematuhan

Firma yang menggunakan penyamaran AI berasaskan pelayar mesti mendokumentasikannya sebagai kawalan teknikal.

Rekod Pemprosesan (ROPA): Nyatakan bahawa gesaan AI melalui penyamaran sisi pelanggan sebelum mencapai vendor. Senaraikan jenis entiti, versi enjin, dan log deploy sebagai bukti.

Perjanjian pemproses data: Apabila tiada data peribadi mencapai vendor AI, kewajipan DPA adalah mudah. Data peribadi yang anda pegang tidak pernah meninggalkan sistem anda.

Log audit: Log tambahan merekodkan bilangan entiti setiap sesi, kadar topeng, dan jenis entiti mengikut volum. Metrik ini dimasukkan ke dalam laporan pematuhan.

Semak peraturan GDPR untuk alat AI dalam panduan pematuhan undang-undang dan glosari kami. Soalan lazim ada dalam FAQ kami.

Kesimpulan

Insiden Samsung menunjukkan bahawa kebocoran AI berlaku lebih cepat daripada mana-mana kawalan pasca-kejadian dapat bertindak. Kajian Cyberhaven memberikan nombor: 11% gesaan, berkali-kali setiap pekerja, setiap hari.

Penyamaran masa nyata sebelum menghantar membetulkan punca utama. Apabila data peribadi tidak pernah mencapai AI, tiada apa yang perlu dikesan, dilog, atau dibersihkan. Pekerja mengekalkan alat AI mereka. Firma mengekalkan status pematuhan mereka.

Pengesanan memberitahu anda bila pencegahan gagal. Untuk kebocoran data AI, kos kegagalan - denda, kerosakan reputasi, kehilangan kepercayaan - membenarkan pencegahan dahulu.

Terokai harga untuk firma anda. Baca pernyataan pengasas kami tentang mengapa pencegahan-dahulu adalah prinsip reka bentuk teras kami.

Sumber

  • Cyberhaven: Kajian Pendedahan Data AI Enterprise 2025 - cyberhaven.com.
  • Pelanggaran Data ChatGPT Samsung, Mac 2023 - Bloomberg.
  • Artikel GDPR 4 dan 32: Data peribadi dan langkah teknikal - gdpr-info.eu.

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.