anonym.legal

By · Last updated 2026-06-05

Назад на блоготТехнички

Фрагментација на Формати на Документи во Алатки за Лични Податоци

Единствен одговор на DSAR може да опфати Word договори, PDF фактури, Excel списоци на клиенти и CSV извози. Користењето различни алатки за секој формат создава јазови во усогласеноста.

June 5, 20267 мин читање
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Проблемот со Повеќе Формати во Усогласеноста со Личните Податоци

Ажурирано за 2026 година

Прашајте службеник за усогласеност кои формати ги анонимизираат за одговори на DSAR. Листата е секогаш иста: Word договори, PDF фактури, Excel податоци за клиенти, CSV извози и JSON дневници.

Потоа прашајте кои алатки ги користат. Одговорот е обично три до пет. Секоја алатка има различна покриеност на ентитети. Секоја има различни поставки. Секоја произведува различен ревизиски дневник.

Ова е фрагментација на формати. Таа создава вистински јазови во усогласеноста.

Зошто Настанува Фрагментацијата

Ниедна алатка не управувала со секој производствен формат на исто ниво на квалитет. Специјализирани алатки се појавиле за секој формат. Една за PDF-ови. Една за табели. Макро за CSV. Секоја има своја листа на ентитети. Ниедна не споделува ревизиска патека.

Резултатот е предвидлив. Одговорот на DSAR опфаќа повеќе типови фајлови. Повеќе алатки го обработуваат. Секоја алатка користи различни стандарди. Ентитетот X е фатен во PDF-от, но е пропуштен во Excel фајлот. Ревизиите на ДЗА ја изложуваат оваа неконзистентност.

Технички Предизвици Специфични за Формати

Секој формат создава свои проблеми при откривање.

PDF

ПДФ-овите доаѓаат во два типа: изворен текст и скенирани слики. Скенираните PDF-ови прво треба OCR. OCR внесува грешки. Изворните PDF-ови честопати зачувуваат секој збор како посебен текстуален објект. Ова го нарушува откривањето на ентитети преку границите на зборови. Повеќеколонските распореди бараат реконструкција на редоследот за читање пред да може да започне анализата.

Word (DOCX)

DOCX фајловите зачувуваат текст во XML. Но и во заглавија, подножја, коментари, следени промени и текстуални полиња. Адреса на меморандум во заглавието на страницата е личен податок. Повеќето алатки го пропуштаат. Следените промени можат да содржат избришани лични податоци. Тој текст е невидлив во рендерираниот приказ, но е присутен во фајлот.

Excel (XLSX)

Excel зачувува лични податоци во која-бидело ќелија во стотици колони и илјадници редови. Заглавијата на колони, како "ЕМБГ" или "Е-пошта", даваат контекст кој моделите за NER го пропуштаат од суровиот текст. Датуми и ЕМБГ-а честопати се зачувани како броеви. Полиња со слободен текст, како "белешки на менаџер", содржат неструктурирани лични податоци. Алатките базирани на колони ги прескокнуваат тие полиња.

CSV

CSV му недостасува структурата на Excel. Полиња со слободен текст во колони "белешки" мешаат лични податоци со друга содржина. Проблемите со кодирање — UTF-8 наспроти Latin-1 — предизвикуваат неуспеси за не-ASCII знаци во европски имиња и адреси.

JSON

Вгнездениот JSON ги заровува личните податоци длабоко: user.address.street.line1. Низите бараат итерација. Исто поле може да содржи различни типови податоци во различни објекти. Доброто откривање бара свесност за шемата и анализа на содржина заедно.

Неконзистентноста е Правен Ризик

Еве конкретен сценарио за GDPR DSAR.

Поединец бара сите лични податоци кои се чуваат за него. Тимот за усогласеност ги наоѓа овие фајлови:

  • 3 Word документи (договори, кореспонденција).
  • 2 PDF документи (фактури, транскрипти на поддршка).
  • 1 Excel табела (податоци за корисничка сметка).
  • 1 CSV извоз (дневници за пристап до систем).

Тие користат Алатка А за PDF-ови. Алатка Б за Word. Макро за XLSX. Рачен преглед за CSV. Секоја алатка има различна покриеност на ентитети.

Поединецот го добива анонимизираниот пакет. Колоната "белешки на менаџер" во Excel не беше обработена. Адресата во меморандумот на Word беше пропуштена. И двете содржат лични податоци кои поединецот побарал да бидат анонимизирани.

Под GDPR Член 15 (право на пристап) или Член 17 (право на бришење), ова е нецелосен одговор на DSAR. Ако поединецот или регулатор го открие јазот, неконзистентното коришење алатки е документиран придонесувачки фактор.

Случајот за Конзистентен Стандард

Силната усогласеност со DSAR не само набројува кои типови лични податоци да се анонимизираат. Бара ист стандард за секој формат во пакетот на одговор.

Тоа значи:

  • Истите типови ентитети проверени во Word, PDF, Excel, CSV и JSON.
  • Истите прагови на доверба применети на сите фајлови.
  • Истите токени за замена искористени. Ако "Иван Петров" се појавува во три документи, еден токен го заменува името и во трите.
  • Една ревизиска патека која ги покрива сите формати.

Решение на единствена платформа го прави ова можно преку предефинирани поставки. Една поставка "DSAR EU Individuals" проверува исти 32 типа ентитети. Се извршува на PDF договор, Excel запис и CSV дневник. Истиот двигател ги обработува сите три.

За повеќе информации за тоа како предефинираните поставки функционираат во пакетни задачи, погледнете го нашиот водич за Пакетна обработка на GDPR DSAR на скала.

Пакетна Обработка на Пакети со Мешани Формати

Усогласеноста со DSAR на скала значи обработка на папки со мешани формати како единица.

Влез: Папка со 15 фајлови — PDF, DOCX, XLSX, CSV — кои ги претставуваат сите податоци за еден поединец.

Чекори на обработка:

  • Детектирајте го форматот на секој фајл.
  • Применете го правилниот анализатор. Екстракција на текст за PDF. Анализа на XML за DOCX. Итерација на ќелии за XLSX. Анализа на полиња за CSV.
  • Извршете ист NLP процес на извлечен текст од сите фајлови.
  • Применете ист предефиниран сет на секој фајл во пакетот.
  • Користете заеднички базен на токени. Истото ime добива ист токен за замена низ сите 15 фајлови.

Излез:

  • Анонимизирани верзии на сите 15 фајлови во нивните оригинални формати.
  • Еден вкрстен ревизиски извештај. Покажува секој детектиран ентитет, неговиот изворен документ, неговиот резултат на доверба и преземената акција.

Тој ревизиски извештај е документот за усогласеност. Докажува дека сите 15 фајлови биле обработени со ист стандард. За ревизија на ДЗА, ова е многу посилно отколку несистематско коришење алатки.

Повrzano: PII sprečuvanje vo realno vreme za curenje podatoci od AI.

Познати Ограничувања на Унифицирани Процеси

Обединувањето на форматите ја решава фрагментацијата. Но воведува свои ограничувања.

Верност при конверзија: Конвертирањето DOCX во формат за обработка и назад може да ја изгуби историјата на следени промени или да ги оштети вградените објекти. Правните документи бараат дополнителна валидација по обработка.

Одржување по формати: Препознавачите на ентитети за CSV се разликуваат од оние за скенирани обрасци. "Унифицираниот" процес сепак бара предобработка по формати. Таа предобработка бара ажурирања додека форматите се развиваат.

Точност на неуобичаени формати: Повеќето NLP модели се обучени на веб текст и вообичаени канцелариски документи. Застарени формати — стари EDI фајлови, сопствени XML шеми, CAD метаподатоци — честопати произведуваат послаба точност од критериумите.

Неreконструктивни формати: Некои типови PDF и само-слики не можат да бидат анонимизирани на место. Тие бараат визуелна редакција. Визуелната редакција ја уништува машинско-читливата структура. Ако ви треба пребарување или индексирање по анонимизација, ова може да не биде доволно.

Практичен Работен Процес за DSAR

За тимови за усогласеност со редовен обем на DSAR:

  1. Собрете ги сите документи за поединецот
  2. Создадете пакет за DSAR — повлечете ги сите фајлови без оглед на форматот
  3. Изберете го предефинираниот сет "DSAR EU Individuals"
  4. Извршете го пакетот
  5. Преземете ги анонимизираните излези и консолидираниот ревизиски извештај
  6. Спот-проверете два или три документи од излезот
  7. Спакувајте ги анонимизираните документи за одговорот на поединецот
  8. Приложете го ревизискиот извештај кон записот за случај DSAR

Чекор 1 (рачно собирање) е сеуште главниот временски трошок. Чекори 2 до 8 траат под 10 минути за типичен пакет. Ревизискиот извештај од чекор 5 го задоволува начелото на одговорност на GDPR.


anonym.legal ракува со DOCX, PDF, XLSX, CSV и JSON. Секој фајл користи ист предефиниран сет. Еден ревизиски извештај го покрива пакетот.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.