anonym.legal

By · Last updated 2026-06-05

Назад към блогаТехнически

Фрагментация на формати при инструменти за PII

Един отговор по DSAR може да обхваща договори в Word, фактури в PDF, списъци с клиенти в Excel и CSV експорти. Използването на различни инструменти за всеки формат създава пропуски в съответствието.

June 5, 20267 мин. четене
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Проблемът с множеството формати при PII съответствие

Актуализирано за 2026 г.

Попитайте служител по съответствие кои формати анонимизира за отговори по DSAR. Списъкът винаги е един и същ: договори в Word, фактури в PDF, данни за клиенти в Excel, CSV експорти и JSON логове.

След това попитайте кои инструменти използва. Отговорът обикновено е три до пет. Всеки инструмент има различно покритие на обекти. Всеки има различни настройки. Всеки създава различен одитен журнал.

Това е фрагментация на формати. Тя създава реални пропуски в съответствието.

Защо се случва фрагментацията

Нито един инструмент не е обработвал всеки производствен формат с еднакво качество. Специализирани инструменти се появиха за всеки формат. Един за PDF. Един за таблици. Макрос за CSV. Всеки има свой собствен списък с обекти. Никой не споделя одитна следа.

Резултатът е предвидим. Отговорът по DSAR обхваща множество типове файлове. Множество инструменти го обработват. Всеки инструмент използва различни стандарти. Обект X е открит в PDF, но пропуснат в Excel файла. Одитите на органа за защита на данни разкриват тази несъответствие.

Технически предизвикателства, специфични за формата

Всеки формат създава свои проблеми при засичане.

PDF

PDF файловете са два типа: нативен текст и сканирани изображения. Сканираните PDF файлове се нуждаят от OCR първо. OCR въвежда грешки. Нативните PDF файлове често съхраняват всяка дума като отделен текстов обект. Това нарушава засичането на обекти по границите на думите. Многоколонните оформления се нуждаят от реконструкция на реда на четене преди да може да започне анализът.

Word (DOCX)

DOCX файловете съдържат текст в XML. Но също така в горни и долни колонтитули, коментари, проследени промени и текстови кутии. Адресът на фирмена бланка в заглавката е PII. Повечето инструменти го пропускат. Проследените промени могат да съдържат изтрити PII. Този текст е невидим в показания изглед, но присъства в файла.

Excel (XLSX)

Excel съхранява PII в произволна клетка в стотици колони и хиляди редове. Заглавките на колони като "SSN" или "Email" дават контекст, който NER моделите пропускат от необработен текст. Датите и SSN номерата често се съхраняват като числа. Полетата със свободен текст като "бележки на мениджъра" съдържат неструктурирани PII. Инструментите, базирани на колони, прескачат тези полета.

CSV

CSV липсва структурата на Excel. Полетата със свободен текст в колони "бележки" смесват PII с друго съдържание. Проблемите с кодирането -- UTF-8 срещу Latin-1 -- причиняват грешки за не-ASCII символи в европейски имена и адреси.

JSON

Вложеният JSON заравя PII дълбоко: user.address.street.line1. Масивите се нуждаят от итерация. Едно и също поле може да съдържа различни типове данни в различни обекти. Доброто засичане изисква едновременно осведоменост за схемата и анализ на съдържанието.

Несъответствието е правен риск

Ето конкретен сценарий за DSAR по GDPR.

Субектът на данни иска всички лични данни, съхранявани за него. Екипът по съответствие открива следните файлове:

  • 3 документа Word (договори, кореспонденция).
  • 2 PDF документа (фактури, записи на поддръжката).
  • 1 таблица Excel (данни за клиентска сметка).
  • 1 CSV експорт (журнали за достъп до системата).

Те използват Инструмент A за PDF. Инструмент B за Word. Макрос за XLSX. Ръчен преглед за CSV. Всеки инструмент има различно покритие на обекти.

Субектът на данни получава анонимизирания пакет. Колоната "бележки на мениджъра" в Excel не е обработена. Адресът на бланката в Word е пропуснат. И двете съдържат PII, за чиято анонимизация субектът на данни е поискал.

Според член 15 от GDPR (право на достъп) или член 17 (право на заличаване), това е непълен отговор по DSAR. Ако субектът на данни или регулатор открие пропуска, несъответстващите инструменти са документиран допринасящ фактор.

Аргументът за последователен стандарт

Силното съответствие с DSAR не само изброява кои типове PII да бъдат анонимизирани. Изисква един и същ стандарт за всеки формат в набора с отговори.

Това означава:

  • Едни и същи типове обекти, проверени в Word, PDF, Excel, CSV и JSON.
  • Едни и същи прагове за увереност, приложени към всички файлове.
  • Едни и същи заместващи токени. Ако "John Smith" се появява в три документа, един токен замества името и в трите.
  • Една одитна следа, покриваща всички формати.

Решение с една платформа прави това възможно чрез предварителни настройки. Едни предварителни настройки "DSAR ЕС физически лица" проверяват едни и същи 32 типа обекти. Работи с PDF договор, Excel запис и CSV журнал. Един и същ механизъм обработва и трите.

За повече информация как предварителните настройки работят при групови задачи, вижте нашето ръководство за групова обработка на GDPR DSAR в мащаб.

Групова обработка на набори от смесени формати

Съответствието с DSAR в мащаб означава обработване на папки със смесени формати като единица.

Вход: Папка с 15 файла -- PDF, DOCX, XLSX, CSV -- представляващи всички данни, съхранявани за един субект на данни.

Стъпки на обработване:

  • Засечете формата на всеки файл.
  • Приложете правилния парсер. Извличане на текст от PDF. Парсиране на XML от DOCX. Итерация на клетки от XLSX. Парсиране на полета от CSV.
  • Стартирайте един и същ NLP тръбопровод върху извлечения текст от всички файлове.
  • Приложете едни и същи предварителни настройки към всеки файл в групата.
  • Използвайте споделен пул от токени. Едно и също име получава един и същ заместващ токен в целите 15 файла.

Изход:

  • Анонимизирани версии на всичките 15 файла в оригиналните им формати.
  • Един многоформатен одитен доклад. Той показва всеки засечен обект, изходния му документ, оценката му за увереност и предприетото действие.

Този одитен доклад е документът за съответствие. Той доказва, че всичките 15 файла са обработени по един и същ стандарт. За одит от орган за защита на данни това е много по-силно от разпокъсани инструменти.

Свързано: предотвратяване на PII в реално време при изтичания на AI данни.

Известни ограничения на унифицираните тръбопроводи

Унифицирането на формати решава фрагментацията. Но въвежда свои собствени ограничения.

Точност на преобразуването: Преобразуването на DOCX в формат за обработка и обратно може да загуби историята на проследените промени или да повреди вградени обекти. Правните документи се нуждаят от допълнителна проверка след обработка.

Поддръжка за всеки формат: Разпознавачите на обекти за CSV се различават от тези за сканирани формуляри. "Унифициран" тръбопровод все още се нуждае от предварителна обработка за всеки формат. Тази предварителна обработка се нуждае от актуализации с развитието на форматите.

Точност при необичайни формати: Повечето NLP модели се обучават на уеб текст и стандартни офис документи. Наследените формати -- стари EDI файлове, персонализирани XML схеми, CAD метаданни -- често дават по-лоша точност от тази, предполагана от бенчмарковете.

Неreconструируеми формати: Някои типове PDF и файлове само с изображения не могат да бъдат анонимизирани на място. Те се нуждаят от визуално редактиране. Визуалното редактиране унищожава машинно четимата структура. Ако се нуждаете от търсене или индексиране след анонимизация, това може да не е достатъчно.

Практически работен поток за DSAR

За екипи по съответствие с редовни обеми на DSAR:

  1. Съберете всички документи за субекта на данни
  2. Създайте групова задача DSAR -- плъзнете всички файлове, независимо от формата
  3. Изберете предварителните настройки "DSAR ЕС физически лица"
  4. Стартирайте групата
  5. Изтеглете анонимизираните резултати и консолидирания одитен доклад
  6. Проверете два или три документа от резултата
  7. Пакетирайте анонимизираните документи за отговора на субекта на данни
  8. Прикачете одитния доклад към записа на DSAR случая

Стъпка 1 (ръчно събиране) все още е основните разходи за време. Стъпки 2 до 8 отнемат под 10 минути за типична група. Одитният доклад от стъпка 5 удовлетворява принципа за отчетност по GDPR.


anonym.legal обработва DOCX, PDF, XLSX, CSV и JSON. Всеки файл използва едни и същи предварителни настройки. Един одитен доклад покрива групата.

Източници

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.