By · Last updated 2026-03-12

Bumalik sa BlogLegal Tech

Mga Parusa sa E-Discovery: Nabigo ang AI Redaction

Sa Athletics Investment Group v. Schnitzer Steel (2024), nagdulot ng mga parusa sa discovery ang hindi wastong redaction. Dahil nakakamit lamang ng mga AI tool ang 22.7% na katumpakan, nakakaharap ang mga legal na koponan ng tunay na pananagutan.

March 12, 202610 min basahin
e-discovery sanctionsredaction liabilityAI redaction precisiondocument reviewlegal technology

Na-update para sa 2026

Dalawang Paraan ng Pagkabigo ng Redaction

Nakakaharap ang mga legal na koponan ng dalawang uri ng pagkabigo. Parehong lumilikha ng tunay na pananagutan.

Ang under-redaction ay naglalantad ng privileged na data o personal na impormasyon na dapat manatiling nakatago. Inilalantad ng partido ang materyal na mayroon itong karapatan -- at kadalasang tungkulin -- na protektahan.

Ang over-redaction ay nagtatago ng mga katotohanan na may karapatan ang kalabang abogado na makita. Itinuturing ito ng mga korte bilang hadlang. Ito ay isang paglabag sa discovery na napapailalim sa mga parusa.

Ang mga AI tool na nagbibigay-prioridad sa recall kaysa sa katumpakan ay nagdudulot ng pangalawang problema sa disenyo. Ang isang AI engine na nag-i-black out ng 80% ng isang dokumento ay iniiwasang palampasin ang anumang bagay. Ngunit ang resulta ay walang silbi. Maaari rin itong mag-akit ng mga parusa ng korte.

Dalawang uri ng pagkabigo ang nagdadala sa iisang lugar: isang hukom, isang paliwanag, at mga gastos.

Ang Kaso ng Schnitzer Steel (2024)

Ipinakita ng kaso ng 2024 na Athletics Investment Group v. Schnitzer Steel kung paano pinangangasiwaan ng mga korte ang hindi wastong pagtago ng dokumento.

Nag-produce ang isang partido ng mga dokumento na may malawak na markings. Tumutol ang kalabang abogado. Tumingin sa mga materyal ang korte. Natuklasan nitong lumampas ang mga marking sa pinahihintulutan ng batas.

Ang resulta: mga parusa sa ilalim ng Federal Rule of Civil Procedure 37. Nagbayad ang nagpo-produce na partido para sa isang may depektong proseso.

Hindi bago ang mga ganitong parusa. Ginagamit ito ng mga korte sa loob ng maraming taon. Ang nagpapakilala sa kasong ito ay ang timing. Karaniwan na ngayon ang AI-assisted na pagsusuri sa paglilitis. Nagtatanong ang kaso ng isang pangunahing tanong: sinuri ba ng mga legal na koponan ang katumpakan ng kanilang mga AI tool bago gamitin ang mga ito sa produksyon?

Mahalaga ang sagot. Ang isang tool na may mahinang katumpakan ay mag-flag ng maraming masyadong. Ang abogadong umaasa rito nang walang pagsuri ay nagdadala ng panganib.

Para sa buong pagsusuri ng kaso, tingnan ang pagsusuri ng E-Discovery LLC sa relevance-based na pagtago.

Ang Problema sa 22.7% na Katumpakan

Ang Presidio ay isang open-source na PII detection engine na ginawa ng Microsoft. Malawak itong ginagamit sa mga tool para sa pagsusuri ng dokumento. Ang mga pagsubok sa mga court filing at kontrata ay nagbibigay sa kanya ng 22.7% na katumpakan.

Sinusukat ng katumpakan kung gaano kadalas tama ang isang positibong flag. Sa 22.7%, humigit-kumulang 77 sa bawat 100 na flag ay mga maling positibo. Ang mga item na iyon ay hindi sensitibo ayon sa anumang naaangkop na pamantayan.

Para sa e-discovery, direkta ang matematika. Ang isang set ng 10,000 na dokumento na pinoproseso sa rate na iyon ay magkakaroon ng libo-libong walang batayan na marking. Ang nagpo-produce na partido ay nahaharap sa parehong panganib tulad ng defendant sa Schnitzer Steel: isang hinihabag na produksyon, isang pagsusuri ng korte, at posibleng mga parusa.

Ang numero na ito ay para sa out-of-box na setup ng Presidio sa nilalaman ng law firm. Hindi lahat ng AI tool ay gumaganap sa antas na ito. Ngunit ang engine na ito ang pinakamalawak na ginagamit na open-source na opsyon sa larangan.

Istruktura ang sanhi. Nag-train ang mga NLP system sa pangkalahatang teksto. Naiiba ang wika sa korte. Gumagamit ito ng mga tuntunin ng sining, mga format ng pagsipi, at mga alituntunin sa pagsulat na lumalayo sa data ng pagsasanay. Ang isang tool na gumagana nang maayos sa mga medikal na rekord ay maaaring mas mahinang magsagawa sa mga transkripto ng deposisyon.

Ano ang Ipinapakita ng Data ng Paggamit ng AI

Narito ang isang pangalawang punto ng data: 27.4% ng nilalaman ng AI chatbot ay sensitibo, ayon sa independyenteng pagsusuri ng paggamit ng enterprise AI.

Inilalarawan nito kung ano ang ipinapadala ng mga empleyado sa panahon ng mga normal na gawain. Hindi data na sinasadyang ibahagi -- nilalaman na kasama sa pamamagitan ng ugali o aksidente. Ang mga abogadong gumagamit ng AI para mag-draft ng mga liham, suriin ang mga kontrata, o i-summarize ang mga deposisyon ay nagpapadala ng sensitibong nilalaman sa mga server ng AI vendor bilang epekto ng normal na trabaho.

Halos tatlo sa sampung interaksyon ay nagsasangkot ng data ng kliyente, privileged na impormasyon, o estratehiya ng kaso. Ang nilalaman na iyon ay umaabot sa mga server ng AI vendor sa nababasang anyo maliban kung pinipigilan ito ng mga kontrol.

Para sa mga law firm na sinusuri ang kanilang panganib sa AI, ang 27.4% ay hindi isang maliit na isyu. Ito ang base rate. Halos isang-katlo ng paggamit ng AI sa isang firm ay nagsasangkot ng nilalaman na nangangailangan ng proteksyon.

Ang Kadena ng Pananagutan

Lumilikha ang over-withholding at mga AI data leak ng magkahiwalay ngunit magkaugnay na landas ng panganib. Parehong nagsisimula sa parehong desisyon: mag-deploy ng AI tool nang walang wastong ebalwasyon.

Ang landas ng discovery: Malawak na nag-flag ang AI ng nilalaman -- umaasa ang abogado sa output nang walang spot-checking -- ang produksyon ay may mga hindi makatuwirang marking -- tumutol ang kalabang abogado -- sinusuri ng korte -- mga parusa.

Ang landas ng data leak: Gumagamit ang abogado ng AI para sa trabaho sa kaso -- tinatanggap ng AI ang mga privileged na komunikasyon -- nakaranas ng breach ang AI vendor -- nalantad ang data ng kliyente -- sumusunod ang mga claim ng malpractice.

Pareho sa dalawang kaso ang panimulang punto. Nagde-deploy ang mga firm ng mga AI tool nang hindi alam kung ano talaga ang ginagawa ng mga tool na iyon. Walang mga kontrol na naka-set up para sa trabaho.

Precision-First na Pagsusuri para sa mga Produksyon

Nagtatanong ang mga korte ng makitid na tanong kapag sinusuri nila ang mga disputed na marking. Bawat isa ba ay sinusuportahan ng pribilehiyo, isang alituntunin ng confidentiality, o isang order ng korte? Hindi tinatanong ng mga korte kung ang pinakamaraming na-flag ng tool ng nagpo-produce na partido ay posible.

Ang isang marking na walang wastong batayan ay isang paglabag sa discovery. Hindi mahalaga kung isang tao o AI ang gumawa nito. Ang pagtatanong ay marking-by-marking.

Para sa mga abogado, nangangahulugang kailangang subukan ang mga AI review tool sa katumpakan -- ang bahagi ng mga flag na tunay na privileged. Hindi lamang recall. Ang isang tool na nakakamit ng 90% recall sa 22.7% na katumpakan ay nakaka-catch ng mas maraming sensitibong nilalaman. Ngunit lumilikha ito ng burden ng pagsusuri para sa 77.3% ng mga maling flag. Kapag hindi nangyari ang pagsusuring iyon, sumusunod ang malawak na over-withholding.

Bawat marking sa isang produksyon ay isang claim sa korte. Sinasabi nito: ang nilalaman na ito ay lehitimong pinipigilan. Pagkatapos ng Schnitzer Steel, ang claim na iyon ay kailangang manatiling matatag.

Para sa karagdagang impormasyon kung paano naiiba ang mga tool ng anonymization mula sa karaniwang PII detection, tingnan ang aming gabay sa katumpakan ng AI sa legal na pagsusuri ng dokumento. Para sa konteksto sa mga privilege log at mga AI tool, tingnan ang aming piraso sa attorney-client privilege at AI.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.