By · Last updated 2026-06-03

Zpět na blogPrávní technologie

Právní PII: Detekce privilegovaných informací

Čísla soudních případů, čísla advokátních registrací, čísla soudních spisů a identifikátory klientských věcí jsou právně citlivé identifikátory, které standardní nástroje pro PII přehlíží.

June 3, 20267 min čtení
attorney-client privilegelegal document reviewcase numberslaw firm privacylegal tech

title: "Právní PII: Detekce privilegovaných informací" description: "Čísla soudních případů, čísla advokátních registrací, čísla soudních spisů a identifikátory klientských věcí jsou právně citlivé identifikátory, které standardní nástroje pro PII přehlíží." category: legal-tech publishedAt: 2026-06-03 tags:

  • advokátní tajemství
  • přezkum právních dokumentů
  • čísla případů
  • ochrana soukromí v advokacii
  • právní technologie readingTime: 7

Advokátní tajemství v éře umělé inteligence: Právní PII, které musí váš anonymizační nástroj detekovat

Standardní nástroje pro PII zachytí jména, e-maily a rodná čísla. Přehlédnou čísla klientských věcí, čísla advokátních registrací a identifikátory spisů. Ty nesou závažné riziko porušení privilegia. Obecné nástroje tuto mezeru ponechávají otevřenou.

Advokátní kanceláře každý den odesílají soubory do nástrojů AI. Tyto soubory obsahují identifikátory citlivé z hlediska privilegia, které standardní nástroje nezachytí.

Když advokátní kancelář směruje soubory přes asistenta AI, obsahují tyto soubory právní identifikátory spolu se standardními PII:

  • Identifikátory klientských věcí: Propojují celý spis věci a identifikují klienta
  • Referenční čísla případů: Kódy přidělené soudem, které vedou k veřejným záznamům s privátními detaily
  • Čísla advokátních registrací: Identifikátory advokátů dohledatelné ve veřejných státních adresářích
  • Kódy soudních spisů: Propojují s veřejnými systémy podání s úplnou historií případu
  • Kódy přidělení soudce: Identifikují předsedajícího soudce v citlivých situacích

Jakýkoli z těchto identifikátorů odeslaný externímu dodavateli AI vytváří potenciální problém s privilegiem.

Proč tyto identifikátory vyžadují vlastní detekci

Formáty soudních spisů se řídí vzory na úrovni jednotlivých soudních obvodů. Žádný jediný vzor nepokrývá všechny federální a státní soudy.

Federální občanskoprávní případy používají dvoumístný rok, poté „cv” a číslo případu. Trestní případy používají „cr” na stejném místě. Státní soudy se liší podle regionu bez společného standardu.

Čísla advokátních registrací jsou státně specifická. Kalifornie používá číselný formát. New York používá formát registru. Texas má vlastní formát čísla advokátní licence. Žádný národní formát neexistuje.

Identifikátory klientských věcí jsou specifické pro každou kancelář. Každá kancelář si buduje vlastní formát. Rok-klient-věc. Kódy právní skupiny. Sekvenční identifikátory.

Standardní nástroje pro PII nemohou žádný z těchto formátů znát bez vlastního nastavení.

Mezera je reálná. Nástroj pro dokumenty obdrží úplný kontext věci. Kódy spisů vedou k veřejným záznamům. Identifikátory klientů jsou přítomny. Nástroj hlásí odstranění PII. Jména a e-maily byly odstraněny. Identifikátory citlivé z hlediska privilegia odstraněny nebyly.

Případ právního startupu s AI

Legální AI startup vytváří nástroj pro dokumenty pro advokátní kanceláře. Produkt prohledává soubory z procesu discovery, identifikuje relevantní klauzule a označuje potenciálně privilegovaný obsah. Podnikoví klienti vyžadují redakci identifikátorů klientských věcí spolu se standardními PII před zpracováním.

Problém s compliance: nástroj AI zpracovává data souborů obsahující identifikátory klientských věcí. V kombinaci s veřejnými soudními podáními by tyto identifikátory mohly umožnit identifikaci věci. Podnikové týmy právního provozu to označují za nepřijatelné.

Před vlastní detekcí entit:

  • Při due diligence je nalezena mezera v souladu s předpisy
  • Více než 3 měsíce čekání na vlastní NLP model
  • Podniková smlouva pozastavena

S vlastním API pro entity:

  • Compliance officer definuje formát identifikátoru věci při onboardingu
  • Vzor testován na vzorových souborech: 2 dny
  • Vlastní entita přidána do pipeline: 1 další den
  • Podniková smlouva pokračuje

Rozdíl je 3 dny oproti více než 3 měsícům. Práce spočívá v nastavení vzoru a integraci API. Není vyžadováno trénování NLP modelu.

Běžné formáty podle kategorie

Federální soudní spisy:

Federální občanskoprávní případy používají: dvoumístný rok + „cv” + 4–6místné číslo případu. Příklad: 24-cv-12345. Trestní případy používají „cr” na stejném místě. Případy insolvence používají „bk.” Odvolání používají dvoumístný rok a 4–5místné číslo, které se liší podle obvodu.

Formáty státních soudů (příklady):

Kalifornský Superior Court používá šestimístný prefixový systém. New York používá indexový formát s rokem a pořadím. Texas používá formát příčiny s rokem, pořadím a kódem soudu.

Identifikátory klientských věcí (typické formáty kanceláří):

U většiny kanceláří se vyskytují tři běžné vzory:

  • Dvoumístný rok, ID klienta, pořadí věci (např. 24-ACME-001)
  • Iniciály právní skupiny, rok, pak čtyřmístné pořadí (např. LIT240042)
  • Prefix klienta se šestimístným ID (např. SMITHCO-000123)

ID advokátních registrací v USA:

Většina států používá 4–8místná čísla, někdy s prefixem na státní úrovni. ID registrací USDC se liší podle obvodu a nevykazují společný formát.

Pipeline zpracování respektující privilegium

Pro AI pro přezkum dokumentů zvládá vrstvená pipeline celý rozsah.

Vrstva 1 — Detekce standardních PII

Jména, e-maily, telefonní čísla, adresy, rodná čísla. Vysoká přesnost. Zavedené nástroje tuto vrstvu zvládají dobře.

Vrstva 2 — Detekce vlastních kódů

Kódy věcí, ID spisů, ID advokátních registrací. Vzory specifické pro kancelář nastavené při onboardingu. Tato vrstva vyplňuje mezeru, kterou standardní nástroje přehlíží.

Vrstva 3 — Přezkum privilegia (lidský)

Po automatické detekci přezkumá advokát označené identifikátory. Hlavičky ATTORNEY-CLIENT. Štítky WORK PRODUCT. Označení CONFIDENTIAL. Lidský přezkum v této vrstvě není volitelný.

Vrstva 4 — Přezkum výjimek z kontextu

Veřejné záznamy spisů, které nepředstavují riziko privilegia, versus identifikátory klientských věcí, které ho představují. To vyžaduje právní úsudek. Nelze to automatizovat.

Vrstvy 1 a 2 zvládají velkoobjemovou práci. Vrstvy 3 a 4 zachovávají právní úsudek tam, kde rozhodnutí o privilegiu patří. Co se děje, když bylo privilegium již vzdáno použitím nástroje AI, viz advokátní tajemství a AI.

Nastavení pro vývojáře

Konfigurace při onboardingu

Shromažďujte formáty identifikátorů klientských věcí během podnikového onboardingu. Každá kancelář používá jiný formát. Ukládejte je jako vlastní entity specifické pro kancelář. Aplikujte na veškeré zpracování pro daný účet.

Výchozí přednastavení

Předvytvořená přednastavení pokrývají běžné kontexty bez vlastní práce:

  • „Federální soudní dokumenty” — federální vzory spisů pro občanskoprávní, trestní a insolvenční případy
  • „Státní soudní dokumenty (CA/NY/TX)” — státně specifické formáty pro tři hlavní jurisdikce
  • „Interní provoz” — identifikátor věci plus standardní PII
  • „Portál externích advokátů” — reference faktury, identifikátor věci a standardní PII

Dokumentace auditu

Záznamy o zpracování by měly prokazovat, že vlastní kódy byly zahrnuty do každého průchodu detekce. To podporuje ochranu pracovního produktu pro použitou metodu analýzy.

Pro širší pohled na to, jak náklady na redakci narůstají v soudním řízení, viz automatizace PII v e-discovery a snížení nákladů na právní přezkum.

Závěr

Identifikátory citlivé z hlediska privilegia jsou stejně rizikové jako standardní PII — často ještě více. Nástroje, které přehlédnou kódy spisů a identifikátory věcí, zanechávají v dokumentových workflowech reálnou mezeru.

Opravou není NLP model. Je jím nastavení vzorů. Pro vývojáře budující nástroje pro advokátní kanceláře je to rozdíl mezi opravou za 3 dny a projektem trvajícím 3 měsíce. Pro advokátní kanceláře je to rozdíl mezi obhajitelným přezkumem s podporou AI a rizikem vzdání se privilegia.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.