Tornar al BlogTecnologia Legal

E-descoberta de format mixt: Per què GDPR requereix...

Les organitzacions jurídiques que processen Outlook, Word, PDF, Gmail junts enfronten riscos de redacció fragmentada. GDPR Art.

April 21, 20267 min llegit
e-discoverymixed formatDSAR compliancelegal redactiondocument production

El problema de les eines heterogènies de redacció

La maioria dels casos de litigació involucren arxius de descoberta electrònica de múltiples fonts:

  • Correus (Outlook, Gmail, Lotus Notes)
  • Documents de processador de text (Word, Google Docs)
  • Fulls de càlcul (Excel, Sheets)
  • Imatges (TIFF escanejat, JPEG)
  • PDFs (nadiu, OCR)

Les eines de redacció "úniques" que presten suport de "tots els formats" sovint usen redactors especialitzats per a cada format, cadascun amb tàctics d'alineació de píxels diferents i nivells de garantia de redacció.

Resultat: Un lote de 50.000 documents redactats pot contenir 5+ redactors diferents, cadascun amb taxa de fallada desconeguda.

Com fallan les redaccions de format mixt

Exemple 1: Redacció de Outlook PST Outlook PST és una estructura de fitxer complex que emmagatzema:

  • Cos del correu en MHTML o MIME (text net + HTML renderitzat)
  • Metadades del corrreu (remitent, assumpte, data, destinataris)
  • Attachments incrustats (imatges, documents)
  • Recuperació de missatges esborrats (potencialment activa)

Moltes eines de redacció PST són redactores genèriques que:

  1. Extreuen el text del correu
  2. Aplicar redacció basada en patrons (números de compte, adreces de correu)
  3. Re-empaquetar el PST

Mentre que redacten el cos de text, sovint deixen intactes:

  • El remitent/assumpte (que pot revelar informació sensible)
  • Metadades de temps de correu (que pot revelar cronologia del delicte)
  • Attachments HTML (que pot contenir versió renderitzada del correu amb contingut sensible visible)

Exemple 2: Redacció de Word DOC/DOCX Word DOCX és un format ZIP que conté:

  • document.xml (capa de contingut)
  • media/ (imatges incrustades)
  • Historial de revisions (si no es limpa)
  • Versió comprimida (si es va fer un "Track Changes")
  • Metadades de document (autor, data de creació, comentaris ocultes)

Eines de redacció DOCX que redacten el text podent deixar intactes:

  • Historial de revisions (fàcilment accessible acceptant tots els canvis, después deshaciendo en el historial)
  • Comentaris de marginació
  • Metadades d'autor
  • Versió anterior del document dins del historial de versió de Word

Exemple 3: Redacció de PDF OCR PDFs generats per OCR (escanejos de documents impresos) contenen:

  • Imatge escanejada (capa visible)
  • Text OCR inferit (capa de text superposta per a recerca)

Redactors de PDF que redacten la capa de text però deixen la imatge intacta permeten que la imatge escanejada original reveli el text ocult.

Auditoria de redacció de format mixt: Pautes de conformitat GDPR

Article 32 de GDPR requereix "mesures tècniques i organitzatives adequades" per a la seguretat de dades. Per a organitzacions que fan redaccions legals de dades personals, això significa:

1. Validació de redacció per format Ant de lliurar documents redactats, verificar que cada format ha estat redactat correctament:

  • Per a PST: Exportar cada correu redactat a EML de text pla; cercar dades sensibles en el text exportat
  • Per a DOCX: Extreure document.xml de l'arxiu ZIP; cercar dades sensibles en XML sense encriptar
  • Per a PDF: Exportar text complet del PDF usant eines de tercer; cercar dades sensibles
  • Per a imatges: Usar OCR sobre la imatge redactada; cercar dades sensibles en la sortida OCR

2. Validació de metadades de redacció Metadades no redactades pot revelar informació sensible:

  • Autor de document: Pot revelar qui va crear documents sensibles (negocis secrets)
  • Data de creació: Pot revelar cronologia de transaccions illicites
  • Comentaris: Pot contenir contextual sensible que l'autor no va voler divulgar

Verificar que:

  • La redacció inclou stripping de metadades
  • Cap autor/data/comentaris permaneix visible
  • Els datos de data es redacten si revelaven rellevancia factual

3. Gestió del historial de revisions Documents Word amb Track Changes activat conserva les versions anteriors del document dins de la estructura de fitxer.

Verificar que:

  • El Track Changes es desactiva antes de redacció
  • Acceptar/rebutjar tots els canvis antes de redacció
  • La versió anterior del document es elimina (no deixar en historial)
  • Validació post-redacció: Extreurer el DOCX, cercar versions anteriors en el arxiu ZIP

4. Format de redacció final obligatòri Per a conformitat GDPR màxima, considerar convertir documents redactats a format immutable al final:

  • Word → PDF: Convertir DOCX redactat a PDF (és historial incrustada pot quedar, però és molt més difícil d'accedir)
  • OUTLOOK → PDF: Exportar correus redactats a PDF (elimina metadades PST)
  • Excel → PDF: Convertir fulls de càlcul redactats a PDF (elimina validacions de fórmules ocultes)

Aquest pas afegeix uns minuts per document però torna la redacció quasi irreversible.

Millors pràctiques del sector per a redacció de múltiples formats

Flux de treball recomanat per a descoberta electrònica:

  1. Recopilació: Exportar des de Outlook, Google Workspace, SharePoint, SMB, etc. a formats neutrals (EML, TXT, PDF, TIFF)
  2. Processament: Convertir a format neutral si és necessari (Word → ODT, Excel → CSV)
  3. Revisió: Identificar dades sensibles a redactar
  4. Redacció: Usar redactor mono-format especialitzat per a cada tipus de fitxer
  5. Validació post-redacció: Verificar cada format per a fuites (descrit més amunt)
  6. Conversió final: Convertir a PDF + copia de seguretat (opcional per a redacció irreversible)
  7. Signatura certificada: Firmar els PDFs finals amb certificat digital per impedir manipulació post-hoc

Eines especialitzades (per format):

FormatRedactor especialitzatValidació
PST/EMLNuix, KPMG eD, LexisNexis ConcordanceExportar a text pla, cercar patró
DOCXVerity, Everlaw, RelativityExtreurer XML, cercar dades
PDFAdobe Acrobat Pro (no eines gratuïtes)Exportar text, cercar patró
TIFFABBYY, Google Cloud VisionOCR i cercar patró

Fonts:

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.