By · Last updated 2026-06-05

Bumalik sa BlogSeguridad ng AI

Real-Time na Pag-iwas sa PII para sa AI Data Leaks

Kapag nag-type ang isang empleyado ng pangalan ng customer sa ChatGPT, agad na nawawala ang kontrol ng organisasyon sa datos. Hindi na mababago ng post-hoc na DLP ang nangyari.

June 5, 20267 min basahin
AI data preventionChatGPT PIIreal-time anonymizationDLP alternativeChrome Extension

Real-Time na Pag-iwas sa PII: Pigilan ang AI Data Leaks Bago Pa Mangyari

Ina-update para sa 2026.

Noong Marso 2023, nagpaste ang isang inhinyero ng Samsung ng source code sa ChatGPT. Sa sandaling iyon, nawala na ang kontrol ng Samsung sa datos. Walang tool ang nakahadlang sa tamang oras. Hindi mapipigilan ng mga post-hoc na security control ang AI data leaks. Pinatunayan ng pangyayaring ito.

Sinasabi sa iyo ng mga detection tool kung ano ang nangyari pagkatapos na mangyari. Ganito gumagana ang mga log check, endpoint DLP, at audit log. Para sa AI leaks, huli na ang lahat. Nakarating na ang datos sa AI model.

Ang Sukat ng Problema

Sinuri ng isang pag-aaral ng Cyberhaven noong 2025 kung paano gumagamit ng AI ang mga kumpanya. Kapansin-pansin ang mga natuklasan.

  • 11% ng lahat ng ChatGPT prompt ay naglalaman ng pribado o sensitibong datos.
  • Gumagamit ang karaniwang manggagawa ng AI tool nang 14 na beses bawat araw.
  • Ang mga mataas na gumagamit ay nakikipag-ugnayan nang 30 hanggang 50 beses araw-araw.
  • Sa 11%, nangangahulugang 3 hanggang 5 sensitibong pagpapadala bawat manggagawa bawat araw.

Sa isang kumpanyang may 500 mataas na gumagamit, umabot ito sa mahigit 2,000 sensitibong pagpapadala bawat araw. Bawat isa ay maaaring maging paglabag sa GDPR Article 83. Hindi lamang legal ang panganib. Ang tiwala at reputasyon ay nasa panganib din.

Kasama sa mga karaniwang uri ng sensitibong nilalaman sa AI prompt ang mga sumusunod.

  • Mga pangalan at contact details ng customer.
  • Mga account number at payment record.
  • Mga medikal na tala mula sa mga health worker.
  • Mga detalye ng kaso mula sa mga abogado.
  • Mga tala ng pagsusuri ng kawani mula sa HR team.
  • Mga panloob na proyeksyon ng kita o benta.

Hindi nahahati ng pag-aaral ang sadya at hindi sinasadyang pagbabahagi. Parehong lumilikha ng parehong legal na panganib. Ang isang manggagawang nakakalimot na alisin ang pangalan ng kliyente ay nagdudulot ng parehong paglabag tulad ng isa na nagbibigay-daan dito. Hindi nagbabago ang resulta dahil sa intensyon.

Bakit Hindi Sapat ang Detection

Mga network check ay hindi makabasang HTTPS traffic nang walang TLS blocking. Ang TLS blocking ay nagdudulot ng dagdag na overhead at nagpapataas ng mga alalahanin sa privacy. Kadalasan ay tinatanggihan ito ng mga modernong browser.

Mga Endpoint DLP agent ay nagmamasid sa clipboard at keystroke input. Ngunit may pagkaantala ang mga ito. Sa oras na mag-flag ng pattern ang isang agent, maaaring napadala na ang prompt.

Mga vendor audit log ay nagtatala ng kung ano ang ibinahagi pagkatapos na maibahagi ito. Nakakatulong ang mga ito sa pagtugon. Hindi nito pinapigilang mag-leak.

Pagsasanay ng kawani ay isang patakaran, hindi isang kontrol. Ipinapakita ng pag-aaral ng Cyberhaven na 11% ng mga prompt ay naglalaman pa rin ng sensitibong nilalaman sa mga kumpanyang may malinaw na patakaran. Hindi napipigilan ng pagsasanay ang aksidenteng pagbabahagi o mga pagkakamali sa kalagitnaan ng trabaho.

Pag-block ng AI tool ay nag-aalis ng mga pakinabang sa output. Gumagamit ng personal na device o account ang mga manggagawa. Naglalagay ito ng trabaho sa labas ng anumang pangangasiwa.

Wala sa mga pamamaraang ito ang pumipigil sa sensitibong nilalaman na makarating sa mga AI system sa real time.

Pag-iwas sa Punto ng Pagpasok

Ang tanging ligtas na depensa ay ang pag-mask bago maipadala ang prompt. Ang pangalan ng customer na pinalitan ng [PERSON_1] bago pa man lumabas sa browser ay hindi kailanman makikita ng AI model.

Narito kung paano gumagana ang inline masking.

  1. Nag-type ang isang manggagawa ng email ng customer sa Claude o ChatGPT.
  2. Nakita ng browser add-on ang personal na datos sa real time.
  3. Ang mga entity ay minarkahan ng mga type label: PERSON, EMAIL_ADDRESS, ACCOUNT_NUMBER.
  4. Sinusuri ng manggagawa ang mga markadong item.
  5. Sa isang click, pinapalitan ang lahat ng entity ng mga token.
  6. Ipinapadala ang masked na prompt.

Ito ang prompt na natatanggap ng AI: "Customer [PERSON_1] sa [EMAIL_1] ay may account na [ACCOUNT_1]."

Hinawakan ng AI ang kahilingan. Hindi nito nakikita ang mga tunay na pangalan o numero. Alam ng manggagawa ang tunay na customer mula sa konteksto.

Malinaw ang mga benepisyo ng pamamaraang ito.

  • Nananatili ang personal na datos sa labas ng mga panlabas na AI system.
  • Ang mga detalye ng customer ay hindi nadagdag sa mga AI training set.
  • Nagtatago ang mga manggagawa ng access sa mga AI tool. Nananatiling mataas ang output.

Hindi nito titigilin ang sadyang pagbabahagi kung saan ay lilaktawan ng manggagawa ang tool. Ang mga file upload ay nangangailangan ng hiwalay na daloy ng trabaho. Walang perpektong kontrol. Ngunit iniaalis ng inline masking ang aksidenteng grupo. Ang grupong iyon ang bumubuo sa karamihan ng mga insidente. Ang resulta ay malaking pagbaba ng panganib nang walang pagbabago sa pang-araw-araw na daloy ng trabaho.

Case Study ng Law Firm

Ginamit ng mga kawani ng isang law firm si Claude para mag-draft ng mga tala sa kontrata. Ang kanilang pamamaraan: kopyahin ang mga seksyon ng kontrata, i-paste sa Claude, humiling ng buod.

Bago gamitin ang Chrome Extension - unang 6 na buwan:

  • 3 insidente ng datos ng kliyente ang natuklasan sa panahon ng pagsusuri.
  • Bawat insidente: lumabas ang pangalan ng kliyente kasama ang reference number ng bagay sa prompt.
  • Lahat ng 3 ay aksidente.

Pagkatapos gamitin ang Chrome Extension - susunod na 6 na buwan:

  • Zero na insidente ng datos ng kliyente.
  • Nakatanggap ang mga kawani ng real-time na alerto kapag nagpaste ng mga seksyon na may mga pangalan ng kliyente.
  • Sa isang click, pinalitan ang "Johnson Controls Matter 2024-0347" ng "[PERSON_1] Matter [REFERENCE_1]."
  • Pareho pa rin ang pamamaraan.

Sinabi ng managing partner: "Alam ng aming mga kawani ang patakaran bago pa ang add-on. Ginawa ng add-on ang pagsunod bilang pinakamadaling landas."

Tingnan kung paano ito pinangasiwaan ng ibang mga kumpanya sa aming mga case study. Suriin ang mga kontrol sa security overview.

Mga GDPR Record para sa Compliance Team

Ang mga kumpanyang gumagamit ng browser-based na AI masking ay dapat itala ito bilang teknikal na kontrol.

Mga Talaan ng Pagpoproseso (ROPA): Sabihing ang mga AI prompt ay dumadaan sa client-side masking bago makarating sa mga vendor. Ilista ang mga uri ng entity, bersyon ng engine, at mga deploy log bilang katibayan.

Mga kasunduan sa data processor: Kapag walang personal na datos ang nakarating sa AI vendor, simple lang ang mga tungkulin sa DPA. Ang personal na datos na hawak mo ay hindi kailanman lumalabas sa iyong sistema.

Mga audit log: Kina-capture ng mga log ng add-on ang bilang ng entity bawat session, ang rate ng pag-mask, at mga uri ng entity ayon sa dami. Ang mga sukatan na ito ay nagpapasok sa mga ulat ng compliance.

Suriin ang mga patakaran ng GDPR para sa mga AI tool sa aming legal compliance guide at glossary. Ang mga karaniwang tanong ay nasa aming FAQ.

Konklusyon

Ipinakita ng insidente sa Samsung na ang mga AI leak ay nangyayari nang mas mabilis kaysa sa anumang post-hoc na kontrol. Binigyan ito ng numero ng pag-aaral ng Cyberhaven: 11% ng mga prompt, maraming beses bawat manggagawa, bawat araw.

Ang real-time masking bago ipadala ay nagreretoke sa ugat ng problema. Kapag ang personal na datos ay hindi kailanman nakarating sa AI, wala nang dapat i-detect, i-log, o linisin. Nagtatago ang mga manggagawa ng kanilang mga AI tool. Nagtatago ang mga kumpanya ng kanilang status sa compliance.

Sinasabi ng detection sa iyo kung kailan nabigo ang prevention. Para sa mga AI data leak, ang gastos ng kabiguan - mga multa, pinsala sa reputasyon, pagkawala ng tiwala - ay nagbibigay-katwiran sa prevention muna.

I-explore ang pricing para sa iyong kumpanya. Basahin ang aming pahayag ng tagapagtatag kung bakit ang prevention-first ang aming pangunahing prinsipyo sa disenyo.

Mga Pinagkukunan

  • Cyberhaven: AI Data Exposure Study 2025 - cyberhaven.com.
  • Samsung ChatGPT Data Breach, Marso 2023 - Bloomberg.
  • GDPR Articles 4 at 32: Personal na datos at teknikal na mga hakbain - gdpr-info.eu.

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.