By · Last updated 2026-06-05

Povratak na BlogPravna Tehnologija

E-otkrivanje mijesanih formata: praznina u sukladnosti

Produkcije e-otkrivanja i GDPR DSAR-ovi obuhvataju PDF-ove, Word dokumente, Excel i JSON izvoze. Koristenje razlicitih alata za svaki format stvara praznine u dosljednosti.

June 5, 20267 min čitanja
e-discoverymixed formatDSAR compliancelegal redactiondocument production

E-otkrivanje mijesanih formata: zatvaranje praznine u sukladnosti

Stize zahtjev za produkciju dokumenta. Skup obuhvata pet formata: PDF ugovori, Word dokumenti, Excel tablice, CSV izvozi i JSON zapisnici. Svaki format treba razlicit alat. To je problem.

Izvjesce o e-otkrivanju Everlaw iz 2025. utvrdilo je da pravni timovi koriste u prosjeku 3,2 alata za produkcije mijesanih formata. Operativni trosak je visok. Rizik sukladnosti je jos visi.

Pogledajte nas pregled pravne sukladnosti i sigurnosne prakse za to kako rukujemo produkcijama dokumenata.

Zasto fragmentacija alata stvara praznine

Razliciti alati znace razlicite standarde. Tri ranjivosti slijede.

Opseg entiteta varira prema alatu. Adobe Acrobat trazi tekstualne nizove koje sami unesete. Ne detektira entitete sam od sebe. Word makronaredba moze uhvatiti imena i emailove. Vjerojatno propusta 280+ ostalih vrsta entiteta. Excel pronalazak i zamjena hvata samo ono sto ste upisali. Isti OIB u PDF-u i Excel datoteci moze dobiti razliciti tretman od razlicitih alata.

Revizijski tragovi se razdvajaju. Svaki alat biljezi vlastite radnje - ili nista. DPA moze pitati kako su svi osobni podaci pronadjeni i njima upravljano. Tri zasebna zapisnika od tri alata je slab odgovor.

Postavke se razilaze s vremenom. Skup pravila za PDF redakciju od prije sest mjeseci mozda ne odgovara Word makronaredbi azuriranoj proslog tjedna. Praznina ostaje skrivena dok greska u produkciji ne otkrije.

Sudovi su se pozabavili ovim problemom. Sankcije za greske u e-otkrivanju citirale su nedosljedne standarde medu vrstama dokumenata u jednoj produkciji. Sudovi ocekuju sustavan proces. Alati specificni za format rade protiv toga.

Zahtjev za dosljednost DSAR-a

GDPR DSAR-ovi imaju zahtjev za dosljednost ugraden u zakon.

Clan 15 zahtijeva da osoba ciji se podaci obraduju dobije informacije o svim osobnim podacima koji se drze. Ne svim osobnim podacima u PDF-ovima i vecini u Word dokumentima. Svima.

Smjernice ICO-a za DSAR su jasne po ovoj tocki. Organizacije moraju primijeniti sustavan pristup na svim sustavima i formatima. Zahtijeva se dosljedna metodologija. Alati specificni za format s razlicitim standardima ne ispunjavaju ovu ljestvicu.

Kad DPA istrazuje zalbu na DSAR, pojavljuju se cetiri pitanja:

  1. Koji proces je pronasao sve osobne podatke?
  2. Koji alati su obradivali koje vrste dokumenata?
  3. Koje vrste entiteta su pretrazivane u svakom formatu?
  4. Koji revizijski trag dokazuje potpunost?

Zasebni alati sa zasebnim zapisnicima ne mogu cisto odgovoriti na pitanja 3 i 4.

Prednost unificiranog motora

Unificirani motor pokrece istu logiku detekcije na svakom formatu. Cetiri prednosti slijede.

Dosljedan opseg entiteta. Unaprijed podesena konfiguracija s 32 vrste entiteta obradjuje PDF, DOCX, XLSX i CSV na isti nacin. OIB u Excelu dobiva isti prag pouzdanosti kao OIB u PDF-u.

Jedan revizijski trag. Jedan zapisnik pokriva sve datoteke u grupi. Prikazuje naziv datoteke, vrstu, otkrivene entitete, vrijednosti pouzdanosti i poduzete radnje. Jedan dokument dokazuje sukladnost za cijelu produkciju.

Referentni integritet. Recimo da se "Sara Jovanovic" pojavljuje u PDF ugovoru, Word pismu i Excel zapisu. Isti token - PERSON_0001 - zamjenjuje njeno ime u sva tri. Osoba ciji se podaci obraduju moze pratiti svoj zapis kroz cijelu produkciju.

Jednostavniji tijek rada. Ubacite 15 datoteka mijesanih formata u jednu grupu. Primijenite jednu unaprijed podesenu konfiguraciju. Dobijte 15 anonimiziranih izlaza i jedan revizijski izvjestaj. Tri zasebna tijeka rada s alatima kolapsiraju u jedan.

Za vise o tome kako unaprijed podesene konfiguracije djeluju na grupnim poslovima, pogledajte nas vodic za GDPR DSAR grupnu obradu u velikom obimu.

Savezni FOIA: Isti problem u vecem obimu

US savezne agencije suocavaju se s izazovom mijesanih formata u vecem volumenu.

Zahtjevi prema FOIA-i obuhvataju naslijedjene izvoze s mainframe racunala, moderne Word dokumente, skenirane PDF arhive te CSV i JSON izvozi baze podataka. Nijedna agencija ne koristi jedan format.

DOJ i HHS oboje su pilotirali automatiziranim sustavima za redakciju. Rucna obrada vise formata ne skalira na njihove volumene zahtjeva. Svaki pilot imao je isti temeljni zahtjev: jedan standard iznimke za sve formate. Takodje je bio potreban dokumentirani revizijski trag.

Isto nacelo primjenjuje se izvan savezne vlade. Svaka organizacija s potrebama sukladnosti vise formata treba isto. Jedan standard. Jedan revizijski trag. To je osnova obranjive evidencije sukladnosti.

Studija slucaja odvjetnickog ureda

Srednje veliki odvjetnicku ured vodio je GDPR DSAR odgovore za poslovne klijente.

Prije unifikacije, ured je koristio cetiri razlicita alata. Adobe Acrobat je rukovao PDF-ovima. Word makronaredba je rukovodila DOCX-ovima, pokrivajuci samo imena i emailove. Excel pronalazak i zamjena je rukovao XLSX-ovima. CSV izvozi su isli kroz rucni pregled. Svaki DSAR trajao je 8-12 sati. Samo 2-3 vrste entiteta su provjeravane na isti nacin u svim formatima.

Nakon toga, unificirani motor je rukovao svim formatima u jednoj grupi. Unaprijed podesena konfiguracija: "DSAR EU Pojedinac". Motor je provjeravao 32 vrste entiteta na isti nacin u svakom formatu. Svaki DSAR trajao je manje od jednog sata. Jedan revizijski izvjestaj isao je DPO-u na odobrenje.

Ured sada moze dokazati dosljedan opseg entiteta za svaku vrstu dokumenta u DSAR produkciji. Jedan revizijski dokument pokriva svaki odgovor. Vrijeme je palo s 8-12 sati na manje od jednog sata. To je znacajna operativna promjena. Promjena je ucinila sukladnost sa DSAR-om skalabilnom uslugom koju ured moze ponuditi klijentima.

Povezano: fragmentacija formata dokumenata i anonimizacija PII-ja.

Zakljucak

Fragmentacija formata je odgovornost sukladnosti. Razliciti alati znace razlicite standarde. Razliciti standardi stvaraju revizijske praznine. Revizijske praznine donose izlozenost regulatoru.

Unificirani motor to popravlja u korijenu. Jedan standard detekcije. Jedan revizijski trag. Jedan tijek rada - za svaki format.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.