anonym.legal

By · Last updated 2026-06-05

Назад до блогуТехнічні

Фрагментація форматів документів в інструментах захисту PII

Одна відповідь на DSAR може охоплювати контракти Word, рахунки PDF, списки клієнтів Excel та CSV-експорти. Використання різних інструментів для кожного формату створює прогалини у відповідності.

June 5, 20267 хв читання
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Проблема кількох форматів у дотриманні вимог конфіденційності

Оновлено для 2026 року

Запитайте спеціаліста з відповідності, які формати він анонімізує для відповідей на DSAR. Список завжди однаковий: контракти Word, рахунки PDF, дані клієнтів Excel, CSV-експорти та JSON-журнали.

Потім запитайте, якими інструментами вони користуються. Відповідь, як правило, — три-п'ять різних. Кожен інструмент має різне охоплення сутностей. Різні налаштування. Різний журнал аудиту.

Це фрагментація форматів. Вона створює реальні прогалини у відповідності.

Чому виникає фрагментація

Жоден єдиний інструмент ніколи не опрацьовував усі виробничі формати однаковою якістю. Для кожного формату з'явилися спеціалізовані інструменти: один для PDF, один для таблиць, макрос для CSV. У кожного — власний список сутностей. Жоден не веде спільний журнал аудиту.

Результат передбачуваний. Відповідь на DSAR охоплює кілька типів файлів. Кілька інструментів їх опрацьовують. Кожен використовує різні стандарти. Сутність X виявлена в PDF, але пропущена в Excel. Аудити регуляторів викривають цю непослідовність.

Технічні проблеми, специфічні для кожного формату

Кожен формат створює власні проблеми виявлення.

PDF

PDF-файли бувають двох типів: з нативним текстом і відскановані зображення. Відскановані PDF потребують OCR. OCR вносить помилки. Нативні PDF часто зберігають кожне слово як окремий текстовий об'єкт, що порушує виявлення сутностей через межі слів. Багатоколонкові макети потребують відновлення порядку читання перед аналізом.

Word (DOCX)

Файли DOCX зберігають текст у XML, але також у верхніх і нижніх колонтитулах, коментарях, відстежених змінах та текстових полях. Адреса в шапці сторінки — це PII. Більшість інструментів її пропускають. Відстежені зміни можуть містити видалені PII, невидимі у відображеному документі, але присутні у файлі.

Excel (XLSX)

Excel зберігає PII в будь-якій клітинці серед сотень стовпців і тисяч рядків. Заголовки стовпців на кшталт «ІПН» або «Email» дають контекст, який NER-моделі пропускають при аналізі сирого тексту. Дати та ідентифікаційні номери часто зберігаються як числа. Поля вільного тексту на зразок «Нотатки менеджера» містять неструктуровані PII, які інструменти, що працюють з колонками, ігнорують.

CSV

CSV позбавлений структури Excel. Поля вільного тексту в стовпцях «Нотатки» змішують PII з іншим вмістом. Проблеми кодування — UTF-8 проти Latin-1 — спричиняють збої для символів, відмінних від ASCII, у європейських іменах та адресах.

JSON

Вкладений JSON ховає PII глибоко: user.address.street.line1. Масиви потребують ітерації. Одне й те саме ім'я поля може містити різні типи даних у різних об'єктах. Якісне виявлення потребує як обізнаності зі схемою, так і аналізу вмісту.

Непослідовність як юридичний ризик

Ось конкретний сценарій DSAR за GDPR.

Суб'єкт даних запитує всі персональні дані, що зберігаються про нього. Команда відповідності знаходить такі файли:

  • 3 документи Word (контракти, листування).
  • 2 документи PDF (рахунки, стенограми підтримки).
  • 1 таблиця Excel (дані клієнтського рахунку).
  • 1 CSV-експорт (журнали доступу до системи).

Використовують Інструмент А для PDF, Інструмент Б для Word, макрос для XLSX, ручну перевірку для CSV. У кожного інструмента — різне охоплення сутностей.

Суб'єкт даних отримує анонімізований пакет. Стовпець «Нотатки менеджера» в Excel не опрацьовано. Адреса в шапці Word пропущена. Обидва містять PII, які суб'єкт даних просив анонімізувати.

Згідно зі статтею 15 GDPR (право на доступ) або статтею 17 (право на видалення), це неповна відповідь на DSAR. Якщо суб'єкт даних або регулятор виявить цю прогалину, непослідовне використання інструментів стане задокументованим чинником.

Аргумент на користь єдиного стандарту

Надійна відповідність DSAR не лише перелічує типи PII для анонімізації. Вона вимагає одного стандарту для кожного формату у відповіді.

Це означає:

  • Ті самі типи сутностей перевіряються у Word, PDF, Excel, CSV та JSON.
  • Ті самі порогові значення впевненості застосовуються до всіх файлів.
  • Ті самі замінні токени використовуються. Якщо «Іван Петренко» з'являється в трьох документах, один токен замінює це ім'я у всіх трьох.
  • Один журнал аудиту охоплює всі формати.

Рішення на єдиній платформі робить це можливим через пресети. Один пресет «DSAR EU Individuals» перевіряє ті самі 32 типи сутностей у PDF-контракті, записі Excel та журналі CSV. Той самий рушій обробляє всі три.

Про те, як пресети працюють у пакетних завданнях, дивіться наш посібник із пакетної обробки GDPR DSAR у масштабі.

Пакетна обробка наборів змішаних форматів

Відповідність DSAR у масштабі означає опрацювання папок змішаних форматів як єдиного цілого.

Вхідні дані: Папка з 15 файлами — PDF, DOCX, XLSX, CSV — що представляють усі дані одного суб'єкта даних.

Кроки обробки:

  • Визначення формату кожного файлу.
  • Застосування відповідного парсера: видобування тексту PDF, XML-парсинг DOCX, ітерація клітинок XLSX, парсинг полів CSV.
  • Запуск одного NLP-конвеєра на видобутому тексті з усіх файлів.
  • Застосування одного пресету до кожного файлу в пакеті.
  • Використання спільного пулу токенів: одне й те саме ім'я отримує один і той самий замінний токен у всіх 15 файлах.

Вихідні дані:

  • Анонімізовані версії всіх 15 файлів у вихідних форматах.
  • Один міжформатний звіт аудиту, що показує кожну виявлену сутність, її вихідний документ, оцінку впевненості та вжиті дії.

Цей звіт аудиту є документом відповідності. Він доводить, що всі 15 файлів оброблено за єдиним стандартом. Для аудиту регулятора це значно вагоміше за розрізнені інструменти.

Пов'язане: запобігання витоку PII в реальному часі для даних AI.

Відомі обмеження уніфікованих конвеєрів

Уніфікація форматів вирішує проблему фрагментації, але вносить власні обмеження.

Точність конвертації: Перетворення DOCX у формат обробки та назад може втратити історію відстеження змін або пошкодити вбудовані об'єкти. Юридичні документи потребують додаткової перевірки після обробки.

Обслуговування для кожного формату: Розпізнавачі сутностей для CSV відрізняються від тих, що використовуються для відсканованих форм. «Уніфікований» конвеєр все одно потребує попередньої обробки для кожного формату, яка оновлюється з розвитком форматів.

Точність для нестандартних форматів: Більшість NLP-моделей навчаються на веб-текстах та стандартних офісних документах. Застарілі формати — старі EDI-файли, нестандартні XML-схеми, метадані CAD — часто дають гіршу точність, ніж показують бенчмарки.

Формати без можливості відновлення: Деякі типи PDF та файли лише з зображеннями не можна анонімізувати на місці. Вони потребують візуального редагування, яке руйнує машиночитану структуру. Якщо після анонімізації потрібен пошук або індексування, це може виявитися недостатнім.

Практичний робочий процес DSAR

Для команд відповідності з регулярним обсягом DSAR:

  1. Зберіть усі документи суб'єкта даних
  2. Створіть пакет DSAR — перетягніть усі файли незалежно від формату
  3. Оберіть пресет «DSAR EU Individuals»
  4. Запустіть пакет
  5. Завантажте анонімізовані результати та зведений звіт аудиту
  6. Перевірте вибірково два-три документи з результату
  7. Упакуйте анонімізовані документи для відповіді суб'єкту даних
  8. Додайте звіт аудиту до запису справи DSAR

Крок 1 (ручний збір) досі займає найбільше часу. Кроки 2–8 займають менше 10 хвилин для типового пакету. Звіт аудиту з кроку 5 відповідає принципу підзвітності GDPR.


anonym.legal обробляє DOCX, PDF, XLSX, CSV та JSON. Кожен файл використовує той самий пресет. Один звіт аудиту охоплює весь пакет.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.