By · Last updated 2026-03-15

Bumalik sa BlogLegal Tech

Permanenteng Anonymization: Panganib ng Spoliation

34.8% ng mga input sa ChatGPT ay naglalaman ng sensitibong data (Cyberhaven). Ang solusyon -- permanenteng anonymization -- ay lumilikha ng sarili nitong legal na panganib: spoliation. GDPR Art. 4(5) at Rule 37(e) ay parehong nangangailangan ng reversibility.

March 15, 202610 min basahin
reversible encryptionspoliation risklegal discovery complianceGDPR pseudonymizationAES-256-GCM

Na-update para sa 2026

Isang Solusyon, Dalawang Bagong Panganib

Maraming firm ngayon ang pumipigil ng mga AI leak sa pamamagitan ng pag-strip ng mga pangalan at ID bago maabot ng teksto ang isang AI provider. Ang one-way hashing, hard redaction, o buong pag-alis ay parehong mukhang ligtas. Ang AI ay tumatanggap ng malinis na teksto. Ang mga sensitibong detalye ay nananatili sa loob.

Ang lohika ay may bisa sa bahagi ng seguridad. Natuklasan ng pag-aaral ng Cyberhaven Q4 2025 na 34.8% ng nilalaman na ipinadala sa ChatGPT ay nagtatago ng sensitibong data. Inilagay ng ulat ng Ponemon ng 2024 ang average na gastos ng AI breach sa $2.1 milyon. Ang panganib ay tunay at mataas ang gastos.

Ngunit ang buong pag-alis ay nagpapalit ng isang panganib para sa isa pa: spoliation ng ebidensya.

Para sa mga firm na napapailalim sa mga demanda o audit, ang pagwasak ng kakayahang i-restore ang mga raw na rekord ay maaaring mabilang bilang spoliation sa ilalim ng mga pederal at pang-estadong alituntunin.

Ang Sukat ng Pagbabahagi ng AI

Natuklasan ng pananaliksik mula sa eSecurity Planet at Cyberhaven na 77% ng mga staff ay nagbabahagi ng sensitibong data sa mga AI tool bawat linggo. Sumasaklaw ito sa legal, healthcare, pananalapi, at teknolohiya.

Kadalasang kasama sa shared na nilalaman ang:

  • Mga liham ng kliyente at mga tala ng kaso
  • Mga draft na kontrata at mga tuntunin ng deal
  • Mga internal na plano at mga rekord ng negosyo
  • Mga modelo at proyeksyon sa pananalapi
  • Mga legal na memo at mga tala ng kaso
  • Mga rekord ng pasyente at mga klinikal na tala
  • Mga file ng HR at mga mensahe ng staff

Kapag ang buong pag-alis ang kontrol ng AI, bawat dokumento na dumadaan dito ay maaaring mawala ang legal na halaga nito. Kung ang mga dokumentong iyon ay lalabas sa isang demanda -- napaka-malamang sa loob ng anumang maraming taon para sa mga firm sa mga regulated na larangan -- ang firm ay posibleng nawalan ng ebidensya.

Tingnan ang aming pangkalahatang-ideya ng pagsasaayon sa batas para sa kung paano natutugunan ng anonym.legal ang mga tungkulin sa discovery. Maaari ka ring suriin ang gabay sa token system para makita kung paano gumagana ang masking pipeline sa pagsasagawa.

GDPR: Kailangan ang Reversibility

Tinutukoy ng GDPR Article 4(5) ang pseudonymization bilang pagpoproseso ng mga personal na rekord sa isang paraan na nangangahulugang maaari silang "hindi na mai-attribute sa isang partikular na data subject nang walang paggamit ng karagdagang impormasyon, sa kondisyon na ang naturang karagdagang impormasyon ay pinanatiling hiwalay."

Ang pangunahing punto: ang karagdagang susi na nagbibigay-daan sa muling pag-uugnay ay dapat panatilihin. Ang mga rekord na maaaring muling maiugnay sa pamamagitan ng mga nakaimbak na susi ay binibilang bilang pseudonymized sa ilalim ng GDPR.

Ang mga rekord na hindi maaaring muling maiugnay sa lahat ay hindi pseudonymized. Sila ay anonymized. Mahalaga ang agwat:

  • Ang mga rekord na may token-masked ay nagpapanatili ng ilang tungkulin ng GDPR ngunit maaaring i-restore para sa legal na paggamit.
  • Ang mga ganap na pinawi na rekord ay maaaring mahulog sa labas ng saklaw ng GDPR ngunit hindi maaaring i-restore nang lahat.

Kinukumpirma ng Guidelines 05/2022 ng European Data Protection Board na ang reversibility ay isang pangunahing bahagi ng kahulugan. Ang mga firm na gumagamit ng one-way na pag-alis ay hindi gumagawa ng GDPR pseudonymization. Pinuputol nila ang kakayahang mabawi ang mga rekord.

Matuto pa sa aming conformance hub at pangkalahatang-ideya ng proteksyon.

Mga Pederal na Alituntunin: Ang Pagsubok ng Spoliation

Sa ilalim ng Federal Rules of Civil Procedure, ang mga partido ay dapat mag-preserve ng mga rekord na maaaring relevant sa inaasahang legal na aksyon. Ang tungkuling ito ay nagsisimula kapag ang isang demanda ay makatwirang inaasahan -- hindi kapag ito ay inihain.

Pinapayagan ng Rule 37(e) ang mga korte na magpataw ng mga parusa kapag nabigo ang isang partido na mag-preserve ng mga nakaimbak na rekord. Maaaring kasama sa mga parusa ang:

  • Mga tagubilin ng adverse inference
  • Pagbubukod ng ebidensya
  • Mga parusa na nagtatapos sa kaso sa mga seryosong kaso

Narito kung paano ito nangyayari. Ang isang firm ay gumagamit ng mga AI workflow na ganap na nag-aalis ng sensitibong nilalaman sa normal na kurso ng negosyo. Ang mga rekord na iyon ay naging relevant sa isang demanda sa ibang pagkakataon. Binago ng firm ang mga ito kaya ang raw na teksto ay hindi maaaring i-restore. Kung nangyari iyon pagkatapos na maikabit ang tungkulin sa pag-preserve, sumusunod ang pagkakalantad sa spoliation.

Hindi ito isang marginal na kaso. Ang mga firm sa mga regulated na larangan na may paulit-ulit na legal na pagkakalantad ay humaharap ng patuloy na inaasahang mga demanda sa malawak na mga uri ng dokumento. Ang pag-deploy ng buong pag-alis sa lahat ng workflow -- nang walang mga carve-out para sa mga at-risk na rekord -- ay lumilikha ng malaking panganib sa spoliation.

Reversible kumpara sa Irreversible: Pangunahing Pagkakaiba

Ang pagkakaiba sa pagitan ng reversible at one-way masking ay nasa disenyo.

One-Way: walang paraan pabalik

Ang SHA-256 hashing ng isang pangalan ay gumagawa ng fixed na hash. Ang pangalan ay hindi maaaring makuha mula rito. Ang hard redaction ay nag-aalis ng teksto kaya ang raw na nilalaman ay wala na.

Reversible: posible ang pagbawi

Ang token substitution na may key retention at AES-256-GCM encryption ay parehong nagbabago ng mga rekord sa mga paraan na maaaring i-undo. Ang isang pangalan na pinalitan ng token ay maaaring i-restore sa pamamagitan ng isang lookup table. Ang AES-256-GCM na nilalaman ay maaaring i-decrypt gamit ang tamang susi. Ang raw na teksto ay nananatiling maaabot.

Para sa proteksyon ng AI, parehong gumagana ang parehong paraan. Pinoproseso ng AI ang mga token at hindi kailanman nakikita ang mga tunay na rekord.

Para sa legal na tungkulin, ang reversible token masking lamang ang gumagana. Ang mga one-way na pamamaraan ay pinutol ang pagbawi at lumilikha ng panganib ng spoliation na nabanggit sa itaas.

Basahin kung paano pinamamahalaan ng aming token system ang ito mula simula hanggang katapusan. Para sa mas malalim na konteksto, tingnan ang glossary at FAQ.

Ang Dual-Compliant na Disenyo

Ang isang disenyo na natutugunan ang parehong seguridad ng AI at mga tungkulin sa legal na pagsisiwalat ay gumagamit ng reversible AES-256-GCM token masking:

  1. Ang mga rekord ay pinoproseso bago sila maabot ang anumang AI tool.
  2. Ang mga sensitibong item -- mga pangalan, ID, PHI, privileged na nilalaman -- ay pinapalitan ng mga structured token.
  3. Ang token map ay pinapanatili sa isang hiwalay na tindahan na may mga kontrol sa access na tumutugma sa uri ng data.
  4. Ang pagpoproseso ng AI ay tumatakbo sa kopya ng token. Hindi kailanman nakikita ng AI ang mga tunay na rekord.
  5. Ang mga resulta ay nai-restore gamit ang token map para sa normal na paggamit ng negosyo.
  6. Ang token map ay inilalagay sa ilalim ng legal hold kapag ang mga tungkulin sa discovery ay nai-attach.

Sa ilalim ng disenyong ito, walang raw na nilalaman ang nawawala. Hindi kailanman nakikita ng AI provider ang mga ito sa nababasang anyo. Pinapanatiling posible ng token map ang pagbawi kapag hinihiling ito ng batas. Nawala ang panganib ng spoliation -- walang rekord na naidemolis. Ang mga ito ay naka-mask lamang sa isang paraan na maaaring i-undo.

Natutugunan ang GDPR Article 4(5): ang karagdagang susi (token map) ay pinapanatiling hiwalay na may tamang teknikal at prosesong mga safeguard. Natutugunan ang tungkulin sa pag-preserve ng Federal Rules: ang mga raw na rekord ay maaaring i-restore kapag nag-apply ang isang legal hold.

Tuklasin ang aming diskarte sa pagtuklas ng entity, pangkalahatang-ideya ng proteksyon, at mga plano at rate para sa mga buong detalye.

Ang Binary na Pagpipilian

Nakakaharap ang mga firm ng isang malinaw na tinidor:

  • Permanenteng alisin ang data -- resolbahin ang problema ng AI leak ngunit lumikha ng legal na panganib.
  • Gumamit ng reversible token masking -- matugunan ang parehong pangangailangan sa proteksyon at pagsunod nang sabay-sabay.

Itinutulak ng $2.1 milyong average na gastos ng AI breach ang desisyon sa seguridad. Ngunit ang mga parusa ng spoliation ay hindi rin mura. Sa mga kaso na may malalaking monetary stake, ang mga gastos ay maaaring maabot ang parehong order ng magnitude. Ang parehong panganib ay nararapat sa isang lugar sa desisyon.

Ang isang maayos na patakaran ng AI ay sumasaklaw sa magkabilang dulo. Hinaharangan nito ang mga sensitibong rekord mula sa pag-alis ng firm sa nababasang anyo. At pinapanatili nito ang parehong mga rekord na maaabot kapag hiniling ng isang korte o regulator ang mga ito. Ang reversible token masking ay ang tanging paraan na gumagawa ng pareho nang sabay-sabay.

Para sa karagdagang background, tingnan ang aming pahayag ng tagapagtatag at mga case study.

Mga Pinagkukunan

  • Cyberhaven Q4 2025: Data Exposure in AI Tools -- link
  • IBM / Ponemon Institute: Cost of a Data Breach Report 2024 -- link
  • EDPB Guidelines 05/2022 on Pseudonymization -- link
  • Federal Rules of Civil Procedure Rule 37(e) -- link
  • E-Discovery LLC: Relevance Redactions and Legal Standards -- link

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.