By · Last updated 2026-06-05

Tornar al BlogTecnologia Legal

E-discovery de formats mixtos: el buit de compliment

Les produccions d'e-discovery i les DSAR del RGPD abarquen PDF, documents Word, Excel i exportacions JSON. Usar eines diferents per a cada format crea buits de consistència que els reguladors detecten.

June 5, 20267 min llegit
e-discoverymixed formatDSAR compliancelegal redactiondocument production

E-discovery de formats mixtos: tancant el buit de compliment

Arriba una sol·licitud de produccio de documents. El conjunt abasta cinc formats: contractes PDF, documents Word, fulls de calcul Excel, exportacions CSV i registres JSON. Cada format necessita una eina diferent. Aqui esta el problema.

Un informe d'e-discovery d'Everlaw de 2025 va trobar que els equips legals utilitzen una mitjana de 3,2 eines per a produccions de formats mixtos. El cost operatiu es elevat. El risc de compliment es mes elevat.

Vegeu la nostra descripcio general del compliment legal i les practigues de seguretat per a com gestionem les produccions de documents.

Per que la fragmentacio d'eines crea buits

Eines diferents signifiquen estandards diferents. En segueixen tres vulnerabilitats.

La cobertura d'entitats varia segons l'eina. Adobe Acrobat cerca les cadenes de text que introduiu a ma. No detecta entitats per si sola. Una macro de Word pot detectar noms i correus electronics. Probablement omet mes de 280 altres tipus d'entitats. El cerca i substitueix d'Excel nomes detecta el que heu escrit. El mateix NSS en un PDF i en un fitxer Excel pot rebre un tractament diferent de eines diferents.

Els rastres d'auditoria es divideixen. Cada eina registra les seves propies accions, o res en absolut. Una autoritat de proteccio de dades pot preguntar com es van trobar i gestionar totes les dades personals. Tres registres separats de tres eines es una resposta feble.

La configuracio deriva amb el temps. El conjunt de regles de redaccio de PDF de fa sis mesos pot no coincidir amb la macro de Word actualitzada la setmana passada. La bretlla roman oculta fins que un error de produccio la revela.

Els tribunals han abordat aquest problema. Les sancions per errors d'e-discovery han citat estandards inconsistents en els tipus de documents d'una sola produccio. Els tribunals esperen un proces sistematic. Les eines especifiques per format treballen en contra d'aixo.

El requisit de consistència de les DSAR

Les DSAR del RGPD tenen un requisit de consistència incorporat a la llei.

L'Article 15 exigeix que l'interessat obtingui informacio sobre totes les dades personals conservades. No totes les dades personals en PDF i la majoria en documents Word. Totes.

La guia de l'ICO sobre les DSAR es clara en aquest punt. Les organitzacions han d'aplicar un enfocament sistematic en tots els sistemes i formats. Es requereix una metodologia consistent. Les eines especifiques per format amb estandards diferents no compleixen aquest requisit.

Quan una autoritat de proteccio de dades investiga una reclamacio de DSAR, sorgeixen quatre preguntes:

  1. Quin proces va trobar totes les dades personals?
  2. Quines eines van processar quins tipus de document?
  3. Quins tipus d'entitats es van cercar en cada format?
  4. Quin rastre d'auditoria demostra la integritat?

Eines separades amb registres separats no poden respondre les preguntes 3 i 4 de manera clara.

L'avantatge del motor unificat

Un motor unificat executa la mateixa logica de deteccio en tots els formats. En segueixen quatre beneficis.

Cobertura d'entitats consistent. Un preset amb 32 tipus d'entitats processa un PDF, un DOCX, un XLSX i un CSV de la mateixa manera. El NSS a Excel rep el mateix llindar de confianca que el NSS al PDF.

Un sol rastre d'auditoria. Un sol registre cobreix tots els fitxers d'un lot. Mostra el nom del fitxer, el tipus, les entitats detectades, els valors de confianca i les accions preses. Un document demostra el compliment de tota la produccio.

Integritat referencial. Suposem que "Sara Vidal" apareix en un contracte PDF, una carta Word i un registre Excel. El mateix token --PERSON_0001-- substitueix el seu nom en els tres. L'interessat pot rastrejar el seu registre a traves de tota la produccio.

Flux de treball mes senzill. Deixeu 15 fitxers de formats mixtos en un sol lot. Apliqueu un preset. Obteniu 15 sortides anonimitzades i un informe d'auditoria. Tres fluxos de treball d'eines separades es redueixen a un.

Per obtenir mes informacio sobre com s'apliquen els presets en treballs per lots, vegeu la nostra guia sobre el processament per lots de DSAR del RGPD a escala.

FOIA federal: el mateix problema a escala

Les agències federals dels EUA s'enfronten al repte dels formats mixtos amb un volum superior.

Les sol·licituds FOIA abarquen exportacions de mainframe llegats, documents Word moderns, arxius PDF escanejats i exportacions CSV i JSON de bases de dades. Cap agència utilitza un sol format.

El DOJ i el HHS han pilotat tots dos sistemes de redaccio automatitzada. El processament manual multiformat no escala als seus volums de sol·licituds. Cada pilot tenia el mateix requisit principal: un estandard d'exempcio en tots els formats. Tambe es requeria un rastre d'auditoria documentat.

El mateix principi s'aplica fora del govern federal. Qualsevol organitzacio amb necessitats de compliment multiformat necessita el mateix. Un estandard. Un rastre d'auditoria. Aquesta es la base dels registres de compliment defensables.

Cas d'estudi d'un despatx d'advocats

Un despatx d'advocats de mida mitjana gestionava les respostes DSAR del RGPD per a clients empresarials.

Abans de la unificacio, el despatx usava quatre eines diferents. Adobe Acrobat gestionava els PDF. Una macro de Word gestionava el DOCX, cobrint nomes noms i correus electronics. El cerca i substitueix d'Excel gestionava el XLSX. Les exportacions CSV passaven per revisio manual. Cada DSAR trigava de 8 a 12 hores. Nomes de 2 a 3 tipus d'entitats es comprovaven de la mateixa manera en tots els formats.

Despres, un motor unificat gestionava tots els formats en un sol lot. El preset: "DSAR UE Persona Fisica". El motor comprovava 32 tipus d'entitats de la mateixa manera en tots els formats. Cada DSAR trigava menys d'una hora. Un informe d'auditoria anava al DPO per a la seva aprovacio.

El despatx ara pot demostrar una cobertura d'entitats consistent en tots els tipus de document d'una produccio DSAR. Un document d'auditoria cobreix cada resposta. El temps va passar de 8-12 hores a menys d'una hora. Es un canvi operatiu significatiu. El canvi va convertir el compliment de les DSAR en un servei escalable que el despatx pot oferir als clients.

Relacionat: fragmentacio de format de documents i anonimitzacio de dades personals.

Conclusio

La fragmentacio de formats es una responsabilitat de compliment. Eines diferents signifiquen estandards diferents. Estandards diferents creen buits d'auditoria. Els buits d'auditoria comporten exposicio regulatoria.

Un motor unificat corregeix aixo a l'arrel. Un estandard de deteccio. Un rastre d'auditoria. Un flux de treball, per a cada format.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.