title: "Právní PII: Detekce privilegovaných informací" description: "Čísla soudních případů, čísla advokátních registrací, čísla soudních spisů a identifikátory klientských věcí jsou právně citlivé identifikátory, které standardní nástroje pro PII přehlíží." category: legal-tech publishedAt: 2026-06-03 tags:
- advokátní tajemství
- přezkum právních dokumentů
- čísla případů
- ochrana soukromí v advokacii
- právní technologie readingTime: 7
Advokátní tajemství v éře umělé inteligence: Právní PII, které musí váš anonymizační nástroj detekovat
Standardní nástroje pro PII zachytí jména, e-maily a rodná čísla. Přehlédnou čísla klientských věcí, čísla advokátních registrací a identifikátory spisů. Ty nesou závažné riziko porušení privilegia. Obecné nástroje tuto mezeru ponechávají otevřenou.
Advokátní kanceláře každý den odesílají soubory do nástrojů AI. Tyto soubory obsahují identifikátory citlivé z hlediska privilegia, které standardní nástroje nezachytí.
Když advokátní kancelář směruje soubory přes asistenta AI, obsahují tyto soubory právní identifikátory spolu se standardními PII:
- Identifikátory klientských věcí: Propojují celý spis věci a identifikují klienta
- Referenční čísla případů: Kódy přidělené soudem, které vedou k veřejným záznamům s privátními detaily
- Čísla advokátních registrací: Identifikátory advokátů dohledatelné ve veřejných státních adresářích
- Kódy soudních spisů: Propojují s veřejnými systémy podání s úplnou historií případu
- Kódy přidělení soudce: Identifikují předsedajícího soudce v citlivých situacích
Jakýkoli z těchto identifikátorů odeslaný externímu dodavateli AI vytváří potenciální problém s privilegiem.
Proč tyto identifikátory vyžadují vlastní detekci
Formáty soudních spisů se řídí vzory na úrovni jednotlivých soudních obvodů. Žádný jediný vzor nepokrývá všechny federální a státní soudy.
Federální občanskoprávní případy používají dvoumístný rok, poté „cv” a číslo případu. Trestní případy používají „cr” na stejném místě. Státní soudy se liší podle regionu bez společného standardu.
Čísla advokátních registrací jsou státně specifická. Kalifornie používá číselný formát. New York používá formát registru. Texas má vlastní formát čísla advokátní licence. Žádný národní formát neexistuje.
Identifikátory klientských věcí jsou specifické pro každou kancelář. Každá kancelář si buduje vlastní formát. Rok-klient-věc. Kódy právní skupiny. Sekvenční identifikátory.
Standardní nástroje pro PII nemohou žádný z těchto formátů znát bez vlastního nastavení.
Mezera je reálná. Nástroj pro dokumenty obdrží úplný kontext věci. Kódy spisů vedou k veřejným záznamům. Identifikátory klientů jsou přítomny. Nástroj hlásí odstranění PII. Jména a e-maily byly odstraněny. Identifikátory citlivé z hlediska privilegia odstraněny nebyly.
Případ právního startupu s AI
Legální AI startup vytváří nástroj pro dokumenty pro advokátní kanceláře. Produkt prohledává soubory z procesu discovery, identifikuje relevantní klauzule a označuje potenciálně privilegovaný obsah. Podnikoví klienti vyžadují redakci identifikátorů klientských věcí spolu se standardními PII před zpracováním.
Problém s compliance: nástroj AI zpracovává data souborů obsahující identifikátory klientských věcí. V kombinaci s veřejnými soudními podáními by tyto identifikátory mohly umožnit identifikaci věci. Podnikové týmy právního provozu to označují za nepřijatelné.
Před vlastní detekcí entit:
- Při due diligence je nalezena mezera v souladu s předpisy
- Více než 3 měsíce čekání na vlastní NLP model
- Podniková smlouva pozastavena
S vlastním API pro entity:
- Compliance officer definuje formát identifikátoru věci při onboardingu
- Vzor testován na vzorových souborech: 2 dny
- Vlastní entita přidána do pipeline: 1 další den
- Podniková smlouva pokračuje
Rozdíl je 3 dny oproti více než 3 měsícům. Práce spočívá v nastavení vzoru a integraci API. Není vyžadováno trénování NLP modelu.
Běžné formáty podle kategorie
Federální soudní spisy:
Federální občanskoprávní případy používají: dvoumístný rok + „cv” + 4–6místné číslo případu. Příklad: 24-cv-12345. Trestní případy používají „cr” na stejném místě. Případy insolvence používají „bk.” Odvolání používají dvoumístný rok a 4–5místné číslo, které se liší podle obvodu.
Formáty státních soudů (příklady):
Kalifornský Superior Court používá šestimístný prefixový systém. New York používá indexový formát s rokem a pořadím. Texas používá formát příčiny s rokem, pořadím a kódem soudu.
Identifikátory klientských věcí (typické formáty kanceláří):
U většiny kanceláří se vyskytují tři běžné vzory:
- Dvoumístný rok, ID klienta, pořadí věci (např. 24-ACME-001)
- Iniciály právní skupiny, rok, pak čtyřmístné pořadí (např. LIT240042)
- Prefix klienta se šestimístným ID (např. SMITHCO-000123)
ID advokátních registrací v USA:
Většina států používá 4–8místná čísla, někdy s prefixem na státní úrovni. ID registrací USDC se liší podle obvodu a nevykazují společný formát.
Pipeline zpracování respektující privilegium
Pro AI pro přezkum dokumentů zvládá vrstvená pipeline celý rozsah.
Vrstva 1 — Detekce standardních PII
Jména, e-maily, telefonní čísla, adresy, rodná čísla. Vysoká přesnost. Zavedené nástroje tuto vrstvu zvládají dobře.
Vrstva 2 — Detekce vlastních kódů
Kódy věcí, ID spisů, ID advokátních registrací. Vzory specifické pro kancelář nastavené při onboardingu. Tato vrstva vyplňuje mezeru, kterou standardní nástroje přehlíží.
Vrstva 3 — Přezkum privilegia (lidský)
Po automatické detekci přezkumá advokát označené identifikátory. Hlavičky ATTORNEY-CLIENT. Štítky WORK PRODUCT. Označení CONFIDENTIAL. Lidský přezkum v této vrstvě není volitelný.
Vrstva 4 — Přezkum výjimek z kontextu
Veřejné záznamy spisů, které nepředstavují riziko privilegia, versus identifikátory klientských věcí, které ho představují. To vyžaduje právní úsudek. Nelze to automatizovat.
Vrstvy 1 a 2 zvládají velkoobjemovou práci. Vrstvy 3 a 4 zachovávají právní úsudek tam, kde rozhodnutí o privilegiu patří. Co se děje, když bylo privilegium již vzdáno použitím nástroje AI, viz advokátní tajemství a AI.
Nastavení pro vývojáře
Konfigurace při onboardingu
Shromažďujte formáty identifikátorů klientských věcí během podnikového onboardingu. Každá kancelář používá jiný formát. Ukládejte je jako vlastní entity specifické pro kancelář. Aplikujte na veškeré zpracování pro daný účet.
Výchozí přednastavení
Předvytvořená přednastavení pokrývají běžné kontexty bez vlastní práce:
- „Federální soudní dokumenty” — federální vzory spisů pro občanskoprávní, trestní a insolvenční případy
- „Státní soudní dokumenty (CA/NY/TX)” — státně specifické formáty pro tři hlavní jurisdikce
- „Interní provoz” — identifikátor věci plus standardní PII
- „Portál externích advokátů” — reference faktury, identifikátor věci a standardní PII
Dokumentace auditu
Záznamy o zpracování by měly prokazovat, že vlastní kódy byly zahrnuty do každého průchodu detekce. To podporuje ochranu pracovního produktu pro použitou metodu analýzy.
Pro širší pohled na to, jak náklady na redakci narůstají v soudním řízení, viz automatizace PII v e-discovery a snížení nákladů na právní přezkum.
Závěr
Identifikátory citlivé z hlediska privilegia jsou stejně rizikové jako standardní PII — často ještě více. Nástroje, které přehlédnou kódy spisů a identifikátory věcí, zanechávají v dokumentových workflowech reálnou mezeru.
Opravou není NLP model. Je jím nastavení vzorů. Pro vývojáře budující nástroje pro advokátní kanceláře je to rozdíl mezi opravou za 3 dny a projektem trvajícím 3 měsíce. Pro advokátní kanceláře je to rozdíl mezi obhajitelným přezkumem s podporou AI a rizikem vzdání se privilegia.