Retour au blogTechnologie juridique

Une production de découverte, sept formats de fichiers : pourquoi la fragmentation des formats est un problème d'audit de conformité

Les productions d'e-discovery et les DSAR GDPR s'étendent sur des PDF, des documents Word, des Excel et des exports JSON. Utiliser différents outils pour chaque format crée des lacunes de cohérence que les APD et les tribunaux remarquent.

March 7, 20267 min de lecture
e-discoverymixed formatDSAR compliancelegal redactiondocument production

La réalité de la fragmentation des formats

Une demande de production de documents juridiques arrive. La production s'étend sur :

  • Contrats PDF du système de gestion de documents
  • Documents Word de l'examen juridique
  • Tableaux Excel des finances
  • Exports CSV du CRM
  • Journaux JSON de la piste d'audit API

Cinq formats. La boîte à outils actuelle du cabinet : Adobe Acrobat pour la rédaction PDF, une macro Word pour DOCX, la fonction "chercher et remplacer" intégrée d'Excel pour XLSX, examen manuel pour CSV, et rien pour JSON.

Ce n'est pas inhabituel. Un rapport d'e-discovery d'Everlaw de 2025 identifie la fragmentation des formats comme un défi opérationnel majeur, les équipes juridiques utilisant en moyenne 3,2 outils différents pour des productions de documents impliquant des formats mixtes. Le surcoût opérationnel est significatif. Le risque de conformité est encore plus important.

Pourquoi la fragmentation des outils crée des lacunes de conformité

Utiliser différents outils pour différents formats crée trois vulnérabilités de conformité :

Incohérence de la couverture des entités : La rédaction intégrée d'Adobe Acrobat recherche des chaînes de texte explicites — elle ne fait pas de détection d'entités. Un PDF produit avec Acrobat ne rédige que les chaînes de texte que l'opérateur recherche explicitement. La macro Word ne détecte que les types d'entités pour lesquels elle a été programmée (typiquement des noms et des e-mails, pas tous les 285+ types d'entités). La fonction de recherche et de remplacement d'Excel ne capture rien qui n'ait pas été explicitement saisi. Le même SSN dans un contrat PDF et un tableau Excel peut être traité par deux outils différents avec deux normes de détection différentes.

Fragmentation de la piste d'audit : Chaque outil produit son propre journal (ou aucun journal du tout). Pour une demande d'accès aux données personnelles GDPR où l'APD demande "démontrer que toutes les données personnelles concernant cet individu ont été identifiées et traitées de manière appropriée", des journaux d'audit séparés de trois outils différents couvrant différentes parties d'un ensemble de documents ne constituent pas un récit de conformité convaincant.

Dérive de configuration : Différents outils ont différentes configurations. La norme de rédaction PDF configurée par l'équipe des opérations juridiques il y a six mois peut ne pas correspondre aux paramètres de la macro Word mise à jour par un autre membre de l'équipe la semaine dernière. L'incohérence est invisible jusqu'à ce qu'elle cause une erreur de production.

L'exigence de cohérence n'est pas théorique. Les sanctions judiciaires pour erreurs de production d'e-discovery ont spécifiquement abordé le problème d'incohérence : appliquer des normes différentes à différents types de documents dans la même production est un échec du processus systématique que les tribunaux attendent.

L'exigence de cohérence des DSAR

Les DSAR GDPR ont une exigence de cohérence explicite intégrée dans la norme juridique. L'article 15 exige que la personne concernée reçoive des informations sur "toutes" les données personnelles détenues, et non "toutes les données personnelles dans des PDF et la plupart des données personnelles dans des documents Word."

Les directives de l'ICO sur les DSAR sont explicites : les organisations doivent appliquer une approche systématique pour identifier toutes les données personnelles détenues pour une personne concernée, à travers tous les systèmes et formats. Une approche systématique, par définition, nécessite une méthodologie cohérente — pas des outils spécifiques au format avec des normes différentes.

Pour les enquêtes de l'APD suite à une plainte DSAR, l'auditeur demandera :

  1. Quel processus a été utilisé pour identifier toutes les données personnelles ?
  2. Quels outils ont traité quels types de documents ?
  3. Quels types d'entités ont été recherchés dans chaque format ?
  4. Quelle piste d'audit documente l'exhaustivité de la réponse ?

"Nous avons utilisé Adobe pour les PDF, une macro pour Word, et la fonction de recherche d'Excel pour les tableaux, mais nous n'avons pas de journaux de types d'entités spécifiques pour chacun" n'est pas une réponse satisfaisante aux questions 3 et 4.

L'avantage du moteur unifié

Un moteur de traitement unifié gère tous les formats avec la même logique de détection, permettant :

Préréglages de configuration qui s'appliquent uniformément : Un préréglage "DSAR EU Individuel" configuré avec 32 types d'entités traite un PDF, un DOCX, un XLSX et un CSV du même DSAR avec une couverture d'entités identique. Le SSN dans le tableau Excel est vérifié avec le même seuil de confiance que le SSN dans le contrat PDF.

Piste d'audit unique : Un journal de traitement couvrant tous les fichiers d'un lot, quel que soit le format. Le rapport d'audit montre : nom de fichier, type de fichier, entités détectées, valeurs de confiance, actions entreprises — pour chaque fichier dans l'ensemble de production. Un seul document fournit la preuve de conformité pour l'ensemble de la production.

Intégrité référentielle à travers les formats : Si "Sarah Johnson" apparaît dans un contrat PDF, un enregistrement de correspondance Word et un tableau de compte Excel, une pseudonymisation cohérente à travers les trois formats peut remplacer son nom par le même jeton (PERSON_0001) dans les trois — permettant à la personne concernée de tracer son propre dossier à travers la production.

Traitement par lots de formats mixtes : Déposez 15 fichiers de divers formats dans un seul lot. Traitez avec un seul préréglage. Recevez 15 sorties anonymisées et un rapport d'audit consolidé. Le flux de travail opérationnel est significativement plus simple que la gestion de trois flux de travail d'outils séparés.

Application FOIA des agences fédérales

L'initiative du gouvernement fédéral américain de 2025 pour l'automatisation de la FOIA cite spécifiquement le traitement multi-format comme une exigence clé. Les agences fédérales reçoivent des demandes FOIA qui couvrent des enregistrements stockés dans tous les formats imaginables — exports de mainframe hérités en texte à largeur fixe, documents Word de systèmes de collaboration modernes, PDF numérisés d'archives papier, et exports de bases de données en CSV et JSON.

Le DOJ et le HHS ont tous deux piloté des systèmes de rédaction automatisés spécifiquement parce que le traitement manuel multi-format ne s'adapte pas à leurs volumes de demandes. L'exigence fondamentale pour ces systèmes : application cohérente des mêmes normes d'exemption à travers tous les formats, avec une piste d'audit documentée.

Pour les organisations en dehors du gouvernement fédéral faisant face à des exigences de conformité multi-format similaires, le même principe s'applique : la cohérence du traitement à travers les formats est la base de la documentation de conformité défendable.

Mise en œuvre pour une pratique DSAR d'un cabinet d'avocats

Un cabinet d'avocats de taille moyenne traitant des DSAR GDPR pour des clients d'entreprise a mis en œuvre un traitement de format unifié pour leur flux de travail de réponse aux DSAR :

Avant :

  • Contrats PDF : Adobe Acrobat (recherche de texte manuelle)
  • Correspondance DOCX : macro Word (nom + e-mail uniquement)
  • Enregistrements de compte XLSX : recherche et remplacement Excel (saisie manuelle)
  • Exports CSV : examen manuel
  • Temps de traitement par DSAR : 8-12 heures
  • Types d'entités vérifiés de manière cohérente à travers tous les formats : 2-3 (nom, e-mail)

Après (moteur unifié, traitement par lots) :

  • Tous les formats : lot unique avec préréglage "DSAR EU Individuel"
  • 32 types d'entités vérifiés de manière cohérente à travers tous les formats
  • Temps de traitement par DSAR : 45 minutes (y compris l'examen des résultats)
  • Rapport d'audit unique par DSAR pour approbation du DPO
  • Types d'entités vérifiés de manière cohérente à travers tous les formats : 32

L'amélioration de la conformité : le cabinet peut désormais démontrer une couverture d'entités cohérente à travers tous les types de documents dans une production DSAR, avec un seul document d'audit par réponse. Les 8-12 heures par DSAR sont passées à moins d'une heure — permettant au cabinet d'offrir la conformité DSAR comme un service évolutif.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.