anonym.legal

By · Last updated 2026-06-05

Назад до блогуЮридичні технології

Змішані формати в e-Discovery: усуваємо прогалину у відповідності

Виробництво в рамках e-discovery та GDPR DSAR охоплює PDF, Word, Excel та JSON. Використання різних інструментів для кожного формату створює прогалини в послідовності, що відкривають шлях для регуляторних ризиків.

June 5, 20267 хв читання
e-discoverymixed formatDSAR compliancelegal redactiondocument production

Змішані формати в e-Discovery: усуваємо прогалину у відповідності

Надходить запит на виробництво документів. Набір охоплює п'ять форматів: PDF-контракти, документи Word, таблиці Excel, CSV-експорти та JSON-журнали. Для кожного формату потрібен окремий інструмент. Саме в цьому полягає проблема.

Звіт Everlaw щодо e-discovery за 2025 рік виявив, що юридичні команди використовують у середньому 3,2 інструменти для виробництва змішаних форматів. Операційна вартість висока. Ризик невідповідності ще вищий.

Дивіться наш огляд правової відповідності та практики безпеки щодо того, як ми обробляємо виробництво документів.

Чому фрагментація інструментів створює прогалини

Різні інструменти означають різні стандарти. Звідси три вразливості.

Охоплення сутностей різниться залежно від інструменту. Adobe Acrobat шукає текстові рядки, які ви вводите вручну. Він не виявляє сутності самостійно. Макрос Word може знаходити імена та адреси електронної пошти. Він, швидше за все, пропустить понад 280 інших типів сутностей. Функція пошуку й заміни в Excel знаходить лише те, що ви ввели. Той самий ІПН у PDF та Excel може отримати різне ставлення від різних інструментів.

Журнали аудиту розділяються. Кожен інструмент записує власні дії — або взагалі нічого. Регулятор може запитати, як були знайдені та оброблені всі персональні дані. Три окремих журнали від трьох інструментів — слабка відповідь.

Налаштування дрейфують з часом. Набір правил редагування PDF шість місяців тому може не збігатися з макросом Word, оновленим минулого тижня. Розрив залишається прихованим, поки помилка у виробництві не виявить його.

Суди вирішували цю проблему. Санкції за помилки в e-discovery посилалися на непослідовні стандарти для різних типів документів в одному виробництві. Суди очікують системного процесу. Формат-специфічні інструменти суперечать цьому.

Вимога послідовності для DSAR

GDPR DSAR містить вимогу послідовності, закладену в законі.

Стаття 15 вимагає, щоб суб'єкт даних отримував інформацію про всі персональні дані, що зберігаються. Не всі персональні дані в PDF та більшість у документах Word. Усі.

Рекомендації ICO щодо DSAR чіткі з цього питання. Організації повинні застосовувати систематичний підхід до всіх систем і форматів. Потрібна послідовна методологія. Формат-специфічні інструменти з різними стандартами не відповідають цій вимозі.

Коли регулятор розслідує скаргу на DSAR, виникають чотири питання:

  1. Який процес знайшов усі персональні дані?
  2. Які інструменти обробили які типи документів?
  3. Які типи сутностей шукалися в кожному форматі?
  4. Який журнал аудиту доводить повноту?

Окремі інструменти з окремими журналами не можуть чітко відповісти на питання 3 та 4.

Переваги єдиного рушія

Єдиний рушій запускає ту саму логіку виявлення для кожного формату. Звідси чотири переваги.

Послідовне охоплення сутностей. Пресет з 32 типами сутностей обробляє PDF, DOCX, XLSX та CSV однаково. ІПН в Excel отримує той самий поріг впевненості, що й ІПН у PDF.

Один журнал аудиту. Один журнал охоплює всі файли в пакеті. Він показує ім'я файлу, тип, виявлені сутності, значення впевненості та вжиті дії. Один документ доводить відповідність для всього виробництва.

Референційна цілісність. Припустимо, «Іван Петренко» з'являється в PDF-контракті, листі Word та записі Excel. Той самий токен — PERSON_0001 — замінює його ім'я у всіх трьох. Суб'єкт даних може відстежити свій запис у повному виробництві.

Простіший робочий процес. Завантажте 15 файлів змішаних форматів в один пакет. Застосуйте один пресет. Отримайте 15 анонімізованих результатів та один звіт аудиту. Три окремих процеси з різними інструментами стискаються в один.

Про те, як пресети застосовуються в пакетних завданнях, дивіться наш посібник із пакетної обробки GDPR DSAR у масштабі.

Федеральний FOIA: та сама проблема у більшому масштабі

Федеральні агентства США стикаються з проблемою змішаних форматів при більших обсягах.

Запити FOIA охоплюють застарілі виводи з мейнфреймів, сучасні документи Word, відскановані PDF-архіви та CSV- та JSON-виводи з баз даних. Жодне агентство не використовує один формат.

Міністерство юстиції та HHS обидва пілотували системи автоматизованого редагування. Ручна обробка з кількома форматами не масштабується до їхніх обсягів запитів. Кожний пілот мав ту саму основну вимогу: один стандарт для всіх форматів та задокументований журнал аудиту.

Той самий принцип застосовується за межами федерального уряду. Будь-яка організація з потребами відповідності у кількох форматах потребує того самого: один стандарт, один журнал аудиту — це основа захищених записів відповідності.

Кейс юридичної фірми

Середня юридична фірма вела відповіді GDPR DSAR для корпоративних клієнтів.

До уніфікації фірма використовувала чотири різних інструменти. Adobe Acrobat обробляв PDF. Макрос Word обробляв DOCX, охоплюючи лише імена та адреси електронної пошти. Функція пошуку й заміни в Excel обробляла XLSX. CSV-експорти проходили ручну перевірку. Кожен DSAR займав 8–12 годин. Лише 2–3 типи сутностей перевірялися однаково в усіх форматах.

Після уніфікації єдиний рушій обробляв усі формати в одному пакеті. Пресет: «DSAR EU Individual». Рушій перевіряв 32 типи сутностей однаково в кожному форматі. Кожен DSAR займав менше однієї години. Один звіт аудиту надходив до DPO для підписання.

Тепер фірма може довести послідовне охоплення сутностей для кожного типу документів у виробництві DSAR. Один аудиторський документ охоплює кожну відповідь. Час скоротився з 8–12 годин до менш ніж однієї. Це суттєва операційна зміна. Перехід зробив відповідність DSAR масштабованою послугою, яку фірма може пропонувати клієнтам.

Пов'язане: фрагментація форматів документів та анонімізація PII.

Висновок

Фрагментація форматів — це зобов'язання щодо відповідності. Різні інструменти означають різні стандарти. Різні стандарти створюють прогалини в аудиті. Прогалини в аудиті відкривають шлях для регуляторних ризиків.

Єдиний рушій усуває це в основі. Один стандарт виявлення. Один журнал аудиту. Один робочий процес — для кожного формату.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.