anonym.legal

By · Last updated 2026-06-05

Назад към блогаПравни технологии

Електронно разкриване с множество формати: Пропуск в съответствието

Производствата за електронно разкриване и DSAR по GDPR обхващат PDF, Word, Excel и JSON. Използването на различни инструменти за всеки формат създава пропуски в последователността, излагайки организациите на регулаторен риск.

June 5, 20267 мин. четене
e-discoverymixed formatDSAR compliancelegal redactiondocument production

Електронно разкриване с множество формати: Затваряне на пропуска в съответствието

Пристига заявка за производство на документи. Наборът обхваща пет формата: PDF договори, Word документи, Excel таблици, CSV експорти и JSON журнали. Всеки формат изисква различен инструмент. Това е проблемът.

Доклад за електронно разкриване на Everlaw от 2025 г. установи, че правните екипи използват средно 3,2 инструмента за производства с множество формати. Оперативните разходи са високи. Рискът за съответствието е по-висок.

Вижте нашия преглед на правното съответствие и практики за сигурност за начина, по който обработваме производствата на документи.

Защо фрагментацията на инструменти създава пропуски

Различните инструменти означават различни стандарти. Следват три уязвимости.

Покритието на обектите варира според инструмента. Adobe Acrobat търси текстови низове, въведени ръчно. Не засича обекти сам. Word макрос може да улови имена и имейли. Вероятно пропуска 280+ други типа обекти. Excel намери-и-замени улавя само това, което сте въвели. Един и същ SSN в PDF и Excel файл може да получи различно третиране от различни инструменти.

Одитните следи се разпадат. Всеки инструмент регистрира своите действия -- или нищо. Орган за защита на данни може да попита как са намерени и обработени всички лични данни. Три отделни журнала от три инструмента е слаб отговор.

Настройките се разминават с времето. Наборът от правила за редактиране на PDF от преди шест месеца може да не съвпада с Word макроса, актуализиран миналата седмица. Пропуската остава скрита, докато грешка в производството не я разкрие.

Съдилищата са се занимавали с този проблем. Санкциите за грешки при електронното разкриване са цитирали несъответстващи стандарти за различни типове документи в едно производство. Съдилищата очакват систематичен процес. Инструментите, специфични за формата, работят против него.

Изискването за последователност при DSAR

GDPR DSARs имат вградено правило за последователност в закона.

Член 15 изисква субектът на данни да получи информация за всички лични данни, съхранявани за него. Не всички лични данни в PDF и повечето в Word документите. Всички от тях.

Насоките на ICO за DSAR са ясни по този въпрос. Организациите трябва да прилагат систематичен подход към всички системи и формати. Изисква се последователна методология. Инструментите, специфични за формата, с различни стандарти не отговарят на тази летва.

Когато орган за защита на данни разследва жалба по DSAR, се появяват четири въпроса:

  1. Какъв процес е намерил всички лични данни?
  2. Кои инструменти са обработили кои типове документи?
  3. Кои типове обекти са търсени в кой формат?
  4. Каква одитна следа доказва пълнотата?

Отделните инструменти с отделни журнали не могат да отговорят чисто на въпроси 3 и 4.

Предимството на унифицирания механизъм

Унифицираният механизъм прилага една и съща логика за засичане към всеки формат. Следват четири предимства.

Последователно покритие на обектите. Предварителни настройки с 32 типа обекти обработват PDF, DOCX, XLSX и CSV по един и същ начин. SSN в Excel получава същия праг на увереност като SSN в PDF.

Една одитна следа. Един журнал покрива всички файлове в група. Показва име на файл, тип, засечени обекти, стойности на увереност и предприети действия. Един документ доказва съответствието за цялото производство.

Референтна цялост. Да кажем, "Sarah Johnson" се появява в PDF договор, Word писмо и Excel запис. Един и същ токен -- PERSON_0001 -- замества името й и в трите. Субектът на данни може да проследи своя запис в цялото производство.

По-прост работен поток. Пуснете 15 файла от смесени формати в една група. Приложете едни предварителни настройки. Получете 15 анонимизирани резултата и един одитен доклад. Три отделни работни потока за инструменти се свиват в един.

За повече информация как предварителните настройки се прилагат при групови задачи, вижте нашето ръководство за групова обработка на GDPR DSAR в мащаб.

Федерален FOIA: Същият проблем в по-голям мащаб

Федералните агенции на САЩ се изправят пред предизвикателството с множеството формати при по-голям обем.

Заявките по FOIA обхващат наследени mainframe експорти, съвременни Word документи, архиви от сканирани PDF и CSV и JSON извлечения от бази данни. Никоя агенция не използва един формат.

DOJ и HHS са пилотирали системи за автоматично редактиране. Ръчната обработка на множество формати не мащабира до техния обем на заявки. Всеки пилотен проект имаше едно и също основно изискване: един стандарт за изключения за всички формати. Изисква се и документирана одитна следа.

Същият принцип се прилага извън федералното правителство. Всяка организация с нужди за съответствие с множество формати се нуждае от едно и също нещо. Един стандарт. Една одитна следа. Това е основата на защитимите записи за съответствие.

Казус: Адвокатска кантора

Среднога़лемяна адвокатска кантора обработваше GDPR DSAR отговори за корпоративни клиенти.

Преди унификацията, кантората използваше четири различни инструмента. Adobe Acrobat обработваше PDF. Word макрос обработваше DOCX, покривайки само имена и имейли. Excel намери-и-замени обработваше XLSX. CSV експортите минаваха ръчен преглед. Всеки DSAR отнемаше 8-12 часа. Само 2-3 типа обекти се проверяваха по един и същ начин за всички формати.

След унификацията, унифициран механизъм обработваше всички формати в една група. Предварителните настройки: "DSAR ЕС физическо лице". Механизмът проверяваше 32 типа обекти по един и същ начин за всеки формат. Всеки DSAR отнемаше под един час. Един одитен доклад отиваше при ДЗД за одобрение.

Кантората вече може да докаже последователно покритие на обектите за всеки тип документ в производство по DSAR. Един одитен документ покрива всеки отговор. Времето спадна от 8-12 часа до под един час. Това е значителна оперативна промяна. Промяната направи съответствието с DSAR мащабируема услуга, която кантората може да предлага на клиентите.

Свързано: фрагментация на формати на документи и анонимизация на PII.

Заключение

Фрагментацията на формати е отговорност за съответствието. Различните инструменти означават различни стандарти. Различните стандарти създават одитни пропуски. Одитните пропуски носят регулаторна изложеност.

Унифицираният механизъм поправя това от самия корен. Един стандарт за засичане. Една одитна следа. Един работен поток -- за всеки формат.

Източници

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.