anonym.legal

By · Last updated 2026-06-05

Terug na BlogRegte Tegnologie

Gemengde Formaat E-ontdekking: Nakomingsleemte

E-ontdekkingproduksies en GDPR-DSAR's strek oor PDF's, Word-dokumente, Excel en JSON-uitvoere. Die gebruik van verskillende gereedskap vir elke formaat skep konsekwensie-leemtes.

June 5, 20267 min lees
e-discoverymixed formatDSAR compliancelegal redactiondocument production

Gemengde Formaat E-ontdekking: Die Nakomingsleemte Sluit

'n Dokumentproduksieversoek arriveer. Die stel strek oor vyf formate: PDF-kontrakte, Word-dokumente, Excel-sigblaaie, CSV-uitvoere en JSON-logboeke. Elke formaat benodig 'n ander gereedskap. Dit is die probleem.

'n 2025 Everlaw e-ontdekkingsverslag het bevind dat regspanne gemiddeld 3,2 gereedskap gebruik vir gemengde-formaat produksies. Die bedryfskos is hoog. Die nakomingsrisiko is hoer.

Sien ons regsnakomingsoorsig en veiligheidspraktyke vir hoe ons dokumentproduksies hanteer.

Waarom Gereedskapfragmentasie Leemtes Skep

Verskillende gereedskap beteken verskillende standaarde. Drie kwesbaarheid volg.

Entiteitsdekking wissel per gereedskap. Adobe Acrobat soek na teksstringe wat u met die hand invoer. Dit spoor nie entiteite self op nie. 'n Word-makro kan name en e-posse vang. Dit mis waarskynlik 280+ ander entiteitstipes. Excel soek-en-vervang vang slegs wat u ingetik het. Dieselfde SSN in 'n PDF en 'n Excel-leer kan verskillende behandeling kry van verskillende gereedskap.

Ouditspore val uitmekaar. Elke gereedskap teken sy eie aksies aan -- of niks nie. 'n DPA kan vra hoe alle persoonlike data gevind en hanteer is. Drie afsonderlike logboeke van drie gereedskap is 'n swak antwoord.

Instellings gly oor tyd. Die PDF-redigeringsreelstel ses maande gelede pas moontlik nie by die Word-makro laas week opdater nie. Die leemte bly versteek totdat 'n produksiefout dit onthul.

Howe het hierdie probleem aangespreek. Sanksies vir e-ontdekkingsfoute het inkonsekwente standaarde oor dokumenttipes in 'n enkele produksie aangehaal. Howe verwag 'n stelselmatige proses. Formatspesifieke gereedskap werk daareenoor.

Die DSAR-konsekwentie-vereiste

GDPR-DSAR's het 'n konsekwentie-reel in die wet ingebou.

Artikel 15 vereis dat die datasubjek inligting oor alle persoonlike data gehou ontvang. Nie alle persoonlike data in PDF's en die meeste in Word-dokumente nie. Alles.

Die ICO DSAR-leiding is duidelik hieroor. Organisasies moet 'n stelselmatige benadering oor alle stelsels en formate toepas. Konsekwente metodologie is vereis. Formatspesifieke gereedskap met verskillende standaarde voldoen nie aan hierdie standaard nie.

Wanneer 'n DPA 'n DSAR-klagte ondersoek, kom vier vrae na vore:

  1. Watter proses het alle persoonlike data gevind?
  2. Watter gereedskap het watter dokumenttipes verwerk?
  3. Watter entiteitstipes is in elke formaat gesoek?
  4. Watter ouditspoor bewys volledigheid?

Afsonderlike gereedskap met afsonderlike logboeke kan vrae 3 en 4 nie skoon beantwoord nie.

Die Verenigde Enjin Voordeel

'n Verenigde enjin loop dieselfde opsporingslogika op elke formaat. Vier voordele volg.

Konsekwente entiteitsdekking. 'n Voorafinstelling met 32 entiteitstipes verwerk 'n PDF, DOCX, XLSX en CSV op dieselfde manier. Die SSN in Excel kry dieselfde vertrouensdrempel as die SSN in die PDF.

Een ouditspoor. Een logboek dek alle leers in 'n bondel. Dit wys leernaam, tipe, opgesporde entiteite, vertrouenswaardes en aksies geneem. Een dokument bewys nakoming vir die hele produksie.

Referensiele integriteit. Gestel 'Sarah Johnson' verskyn in 'n PDF-kontrak, 'n Word-brief en 'n Excel-rekord. Dieselfde teken -- PERSOON_0001 -- vervang haar naam in almal drie. Die datasubjek kan hul rekord oor die volle produksie naspoor.

Eenvoudiger werkvloei. Gooi 15 leers van gemengde formate in een bondel. Pas een voorafinstelling toe. Kry 15 geanonimiseerde uitsette en een ouditverslag. Drie afsonderlike gereedskapwerkvloeie val saam tot een.

Vir meer oor hoe voorafinstellings oor bondelwerksopdragte toegepas word, sien ons gids oor GDPR DSAR-bondelprosessering op skaal.

Federale FOIA: Dieselfde Probleem op Skaal

Amerikaas federale agentskappe staan voor die gemengde-formaat uitdaging teen hoer volume.

FOIA-versoeke strek oor oorerflike hoofrekenaarstelsel-uitvoere, moderne Word-dokumente, geskandeerde PDF-argiewe en CSV- en JSON-databasisuitvoere. Geen agentskap gebruik een formaat nie.

Die DOJ en HHS het albei geoutomatiseerde redigeringstelsels geloods. Handmatige multiformaatverwerking skaal nie tot hul versoekvolumes nie. Elke loodsing het dieselfde kernvereiste gehad: een vrystellingstandaard oor alle formate. 'n Gedokumenteerde ouditspoor was ook vereis.

Dieselfde prinsipe geld buite die federale regering. Enige organisasie met multiformaat-nakomingsbehoeftes benodig dieselfde ding. Een standaard. Een ouditspoor. Dit is die grondslag van verdedigbare nakomingsrekords.

Regsfirma-gevallestudie

'n Middelgroot regsfirma het GDPR-DSAR-reaksies vir ondernemingskliante bestuur.

Voor vereniging het die firma vier verskillende gereedskap gebruik. Adobe Acrobat het PDF's hanteer. 'n Word-makro het DOCX hanteer, slegs name en e-posse dek. Excel soek-en-vervang het XLSX hanteer. CSV-uitvoere het deur handmatige oorsig gegaan. Elke DSAR het 8-12 uur geneem. Slegs 2-3 entiteitstipes is op dieselfde manier oor alle formate gekontroleer.

Daarna het 'n verenigde enjin alle formate in een bondel hanteer. Die voorafinstelling: 'DSAR EU Individu.' Die enjin het 32 entiteitstipes op dieselfde manier oor elke formaat gekontroleer. Elke DSAR het minder as een uur geneem. Een ouditverslag is na die DPO gestuur vir goedkeuring.

Die firma kan nou konsekwente entiteitsdekking oor elke dokumenttipe in 'n DSAR-produksie bewys. Een ouditdokument dek elke reaksie. Tyd het gedaal van 8-12 uur tot minder as een uur. Dit is 'n beduidende bedryflike verandering. Die verskuiwing het DSAR-nakoming 'n skaleerbare diens gemaak wat die firma aan kliante kan aanbied.

Verwant: dokumentformaatfragmentasie en PII-anonimisering.

Gevolgtrekking

Formaatfragmentasie is 'n nakomingsaanspreeklikheid. Verskillende gereedskap beteken verskillende standaarde. Verskillende standaarde skep ouditlesemtes. Ouditlesemtes bring reguleerder-blootstelling.

'n Verenigde enjin stel dit reg by die bron. Een opsporingsstandaard. Een ouditspoor. Een werkvloei -- vir elke formaat.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.