By · Last updated 2026-06-03

Bumalik sa BlogLegal Tech

Legal na PII: Pagtuklas ng Pribilehiyo

Ang mga numero ng sanggunian sa kaso, numero ng pagpasok sa bar, numero ng docket ng korte, at mga ID ng client matter ay mga legal na sensitibong identifier na hindi nakukuha ng mga karaniwang tool sa PII.

June 3, 20267 min basahin
attorney-client privilegelegal document reviewcase numberslaw firm privacylegal tech

title: "Legal na PII: Pagtuklas ng Pribilehiyo" description: "Ang mga numero ng sanggunian sa kaso, numero ng pagpasok sa bar, numero ng docket ng korte, at mga ID ng client matter ay mga legal na sensitibong identifier na hindi nakukuha ng mga karaniwang tool sa PII." category: legal-tech publishedAt: 2026-06-03 tags:

  • attorney-client privilege
  • pagsusuri ng legal na dokumento
  • mga numero ng kaso
  • privacy ng law firm
  • legal tech readingTime: 7

Nakukuha ng mga karaniwang tool sa PII ang mga pangalan, email, at SSN. Hindi nila nakukuha ang mga case reference ID, numero ng pagpasok sa bar, at mga client matter tag. Ang mga ito ay nagdudulot ng malalang panganib sa pribilehiyo. Ang mga generic na tool ay nag-iiwan ng gap na iyon na bukas.

Araw-araw, nagpapadala ang mga law firm ng mga file sa mga AI tool. Ang mga file na iyon ay naglalaman ng mga legal na ID na sensitibo sa pribilehiyo kasabay ng karaniwang PII.

Kapag nagpadala ang isang law firm ng mga file sa pamamagitan ng AI assistant, ang mga file na iyon ay naglalaman ng mga legal na ID kasabay ng karaniwang PII:

  • Mga client matter tag: Nagkokonekta sa buong matter file at pinangalanan ang kliyente
  • Mga case reference ID: Mga code na itinalaga ng korte na nagtutuloy sa mga pampublikong rekord na may pribadong detalye
  • Mga numero ng pagpasok sa bar: Mga attorney ID na mahahanap sa mga pampublikong direktoryo ng estado
  • Mga court docket code: Nagkokonekta sa mga pampublikong sistema ng pag-file na may buong kasaysayan ng kaso
  • Mga judicial assignment code: Kinilala ang presiding judge sa mga sensitibong sitwasyon

Ang alinman sa mga ito, na ipinadala sa isang panlabas na vendor ng AI, ay lumilikha ng potensyal na problema sa pribilehiyo.

Bakit Kailangan ng Custom na Pagtuklas para sa mga ID na Ito

Ang mga format ng court docket ay sumusunod sa mga pattern sa antas ng distrito. Walang iisang pattern ang sumasaklaw sa lahat ng pederal at estadong korte.

Ang mga pederal na sibil na kaso ay gumagamit ng dalawang digit na taon, pagkatapos ay "cv," pagkatapos ay isang numero ng kaso. Ang mga kriminal na kaso ay gumagamit ng "cr" sa parehong lugar. Nag-iiba-iba ang mga estadong korte ayon sa rehiyon nang walang ibinahaging pamantayan.

Ang mga numero ng pagpasok sa bar ay partikular sa estado. Gumagamit ang California ng numeric na format. Gumagamit ang New York ng registry format. Gumagamit ang Texas ng sariling format ng bar ID. Walang pambansang format na umiiral.

Ang mga client matter tag ay partikular sa firm. Bawat firm ay nagtatayo ng sariling format. Taon-kliyente-matter. Mga code ng practice group. Sequential ID.

Hindi magagawa ng mga karaniwang tool sa PII ang alinman sa mga ito nang walang custom na setup.

Totoo ang gap. Nakatanggap ang isang tool sa dokumento ng buong konteksto ng matter. Nagkokonekta ang mga docket code sa mga pampublikong rekord. Naroroon ang mga client tag. Nag-uulat ang tool na inalis ang PII. Inalis ang mga pangalan at email. Hindi inalis ang mga ID na sensitibo sa pribilehiyo.

Nagtatayo ang isang legal AI startup ng tool sa dokumento para sa mga law firm. Bini-scan ng produkto ang mga file ng discovery, tinutukoy ang mga kaugnay na clause, at ini-flag ang mga potensyal na privileged na nilalaman. Kinakailangan ng mga enterprise na kliyente ang pag-redact ng mga client matter tag kasabay ng karaniwang PII bago mag-process.

Ang compliance blocker: ang AI tool ay nagpo-proseso ng data ng file na naglalaman ng mga client matter tag. Kasama ng mga pampublikong court filing, ang mga tag na iyon ay maaaring magpahintulot sa pagkilala ng matter. Ina-flag ito ng mga enterprise legal ops team bilang hindi katanggap-tanggap.

Bago ang custom na pagtuklas ng entity:

  • Natuklasan ng deal review ang compliance gap
  • 3+ buwang engineering queue para sa custom na NLP model
  • Nakaantala ang enterprise na kontrata

Sa custom entity API:

  • Tinutukoy ng compliance officer ang format ng matter tag sa onboarding
  • Pattern na sinubukan sa mga sample na file: 2 araw
  • Custom na entity na idinagdag sa pipeline: 1 pang araw
  • Nagpapatuloy ang enterprise na kontrata

Ang gap ay 3 araw kumpara sa 3+ buwan. Ang trabaho ay setup ng pattern at API integration. Hindi kailangan ng pagsasanay ng NLP model.

Mga Karaniwang Format ayon sa Kategorya

Mga pederal na court docket:

Ang mga pederal na sibil na kaso ay gumagamit ng: dalawang digit na taon + "cv" + isang 4-6 na digit na numero ng kaso. Halimbawa: 24-cv-12345. Ang mga kriminal na kaso ay gumagamit ng "cr" sa parehong lugar. Gumagamit ang mga kaso sa bankruptcy ng "bk." Ang mga appeal ay gumagamit ng dalawang digit na taon at isang 4-5 na digit na numero na nag-iiba-iba ayon sa circuit.

Mga format ng estadong korte (mga halimbawa):

Gumagamit ang California Superior Court ng isang anim na digit na prefix system. Gumagamit ang New York ng index format na may taon at sequence. Gumagamit ang Texas ng isang cause format na may taon, sequence, at court code.

Mga client matter tag (karaniwang format ng firm):

Tatlong karaniwang pattern ang lumalabas sa karamihan ng mga firm:

  • Dalawang digit na taon, client ID, matter sequence (hal., 24-ACME-001)
  • Mga inisyal ng practice group, taon, pagkatapos ay isang apat na digit na sequence (hal., LIT240042)
  • Client prefix na may anim na digit na ID (hal., SMITHCO-000123)

Mga US bar admission ID:

Karamihan sa mga estado ay gumagamit ng 4-8 na digit na numero, minsan na may prefix sa antas ng estado. Ang mga USDC admission ID ay nag-iiba-iba ayon sa distrito at hindi sumusunod sa ibinahaging format.

Pipeline ng Pagproseso na May Kamalayan sa Pribilehiyo

Para sa AI ng pagsusuri ng dokumento, ang isang layered na pipeline ay humahawak sa buong saklaw.

Layer 1 - Karaniwang pagtuklas ng PII

Mga pangalan, email, numero ng telepono, address, SSN. Mataas na katumpakan. Ang mahusay na itinatag na tooling ay humahawak nang maayos sa layer na ito.

Layer 2 - Custom na pagtuklas ng code

Mga matter code, docket ID, bar ID. Mga pattern na partikular sa firm na naitakda sa onboarding. Pinupunan ng layer na ito ang gap na napalampas ng mga karaniwang tool.

Layer 3 - Pagsusuri ng pribilehiyo (tao)

Pagkatapos ng automated na pagtuklas, isang abogado ang nagsusuri ng mga naka-flag na marker. Mga header na ATTORNEY-CLIENT. Mga label na WORK PRODUCT. Mga marka na CONFIDENTIAL. Ang pagsusuri ng tao sa layer na ito ay hindi opsyonal.

Layer 4 - Pagsusuri ng exception ng konteksto

Mga pampublikong rekord na docket na walang panganib sa pribilehiyo kumpara sa mga client matter tag na may panganib. Kailangan nito ang pagpapasya ng abogado. Hindi ito maaaring i-automate.

Hinawakan ng Layers 1 at 2 ang mataas na dami ng trabaho. Pinapanatili ng Layers 3 at 4 ang pagpapasya ng abogado kung saan kabilang ang mga desisyon sa pribilehiyo. Para sa nangyayari kapag ang pribilehiyo ay naibigay na sa pamamagitan ng paggamit ng AI tool, tingnan ang attorney-client privilege at AI.

Setup para sa mga Developer

Konpigurasyon ng onboarding

Kolektahin ang mga format ng client matter tag sa panahon ng enterprise onboarding. Bawat firm ay gumagamit ng ibang format. I-store ang mga ito bilang mga custom entity na partikular sa firm. Ilapat sa lahat ng pagproseso para sa account na iyon.

Mga default na preset

Sinasaklaw ng mga pre-built na preset ang mga karaniwang konteksto nang walang custom na trabaho:

  • "Federal Court Documents" - mga pederal na pattern ng docket para sa sibil, kriminal, at bankruptcy
  • "State Court Documents (CA/NY/TX)" - mga format na partikular sa estado para sa tatlong pangunahing hurisdiksyon
  • "Internal Operations" - matter tag kasama ang karaniwang PII
  • "Outside Counsel Portal" - bill reference, matter tag, at karaniwang PII

Dokumentasyon ng audit

Ang mga rekord ng pagproseso ay dapat magpakita na ang mga custom na code ay kasama sa bawat pass ng pagtuklas. Sinusuportahan nito ang proteksyon ng work product para sa paraan ng pagsusuri.

Para sa mas malawak na pagtingin sa kung paano nag-scale ang mga gastos sa redaction sa litigation, tingnan ang e-discovery PII automation at pagbabawas ng gastos sa legal na pagsusuri.

Konklusyon

Ang mga ID na sensitibo sa pribilehiyo ay kasingpanganib ng karaniwang PII - madalas pa nga ay mas mapanganib. Ang mga tool na napalampas ang mga docket code at matter tag ay nag-iiwan ng tunay na gap sa mga workflow ng dokumento.

Ang solusyon ay hindi isang NLP model. Ito ay setup ng pattern. Para sa mga developer na nagtatayo ng mga tool sa law firm, iyon ang pagkakaiba sa pagitan ng 3-araw na solusyon at isang 3-buwang proyekto. Para sa mga law firm, ito ang pagkakaiba sa pagitan ng maipagtanggol na AI-assisted na pagsusuri at isang panganib sa pagtatapon ng pribilehiyo.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.