Pourquoi les tableurs ne sont pas des documents
Un document Word est un flux de texte séquentiel avec des métadonnées de formatage. Un tableur Excel est une structure de données relationnelle : les cellules font référence à d'autres cellules, les formules opèrent sur des plages de cellules, les tableaux croisés dynamiques agrègent des plages de données nommées, et les macros parcourent le modèle d'objet du tableur. Traiter un fichier Excel comme un document texte à traiter pour des motifs PII — ce qui est la façon dont la plupart des outils de rédaction de documents abordent les tableurs — manque les relations de données qui définissent le contenu réel du tableur.
Considérons un tableur d'analyse client. La colonne A contient des noms de clients. La colonne D contient une formule : =VLOOKUP(A2, CustomerTable, 5, FALSE) — une recherche qui renvoie le solde du compte du client en fonction de son nom. Si l'outil d'anonymisation remplace le nom dans la colonne A mais ne met pas à jour la référence de formule ou le tableau de recherche, la formule continue de renvoyer le solde réel du compte pour le nom d'origine. Le document "anonymisé" expose toujours l'identité originale du client à travers la relation de données.
Ce n'est pas un cas limite hypothétique. Les fichiers Excel d'entreprise sont construits autour de relations de données. Remplacer anonymement les valeurs individuelles des cellules sans comprendre la structure relationnelle produit des documents qui semblent anonymisés mais conservent les données d'origine à travers les références de formule, les caches de tableaux croisés dynamiques et les recherches entre feuilles.
L'exigence de partage avec des tiers du RGPD
L'article 28 du RGPD régit le partage des données avec des sous-traitants : les organisations partageant des données personnelles avec des parties externes (consultants, fournisseurs d'analytique, auditeurs) doivent garantir des mesures techniques appropriées. La question pratique : quelle est une mesure appropriée lors du partage d'un ensemble de données Excel contenant 50 000 dossiers clients avec un fournisseur d'analytique externe ?
L'exportation PDF supprime les formules et produit un instantané — mais les exports PDF de grands fichiers Excel corrompent fréquemment le formatage complexe et ne sont pas adaptés à un usage analytique. La conversion en CSV supprime les formules, les tableaux croisés dynamiques et la plupart de la structure analytique. Aucune de ces options ne fournit au fournisseur externe un ensemble de données utilisable pour son objectif analytique.
L'anonymisation au niveau des cellules dans le format Excel natif — remplaçant les valeurs identifiantes tout en préservant la structure analytique — est la seule approche qui satisfait à la fois l'exigence de protection du RGPD et l'exigence d'utilité commerciale simultanément.
Traitement isolé pour les tableurs de défense
67 % des RFP d'approvisionnement gouvernemental et de défense citent des exigences d'environnement isolé (DISA 2024). Les entrepreneurs de défense travaillant avec des données personnelles, des informations logistiques ou des dossiers d'approvisionnement au format Excel ne peuvent pas utiliser d'outils d'anonymisation basés sur le cloud pour les mêmes raisons qui interdisent le traitement de documents basé sur le cloud : les données ne peuvent pas quitter le réseau contrôlé.
La combinaison de la capacité d'anonymisation spécifique à Excel et du traitement uniquement local crée le profil technique requis pour la conformité aux contrats gouvernementaux. L'application de bureau traite les fichiers Excel localement sans appels réseau pendant le traitement ; les résultats d'anonymisation ne quittent jamais l'environnement isolé ; les fichiers traités sont disponibles pour un partage interne au sein du réseau contrôlé.
Intelligence au niveau des cellules
Une anonymisation efficace d'Excel opère simultanément à trois niveaux :
Niveau de valeur : Détecter et remplacer les valeurs PII dans des cellules individuelles. Les noms de clients, adresses e-mail, numéros de téléphone et numéros d'identification nationale sont identifiés grâce au même moteur de détection hybride utilisé pour le traitement des documents.
Niveau de formule : Identifier les cellules dont les formules font référence à des cellules contenant des PII, et mettre à jour ces références pour pointer vers les valeurs anonymisées ou remplacer la formule par son résultat calculé pour éviter l'exposition de PII basée sur des formules.
Niveau de structure : Effacer les caches de données des tableaux croisés dynamiques, traiter les lignes et colonnes cachées, et gérer le code VBA de macro qui fait référence à des adresses ou valeurs de cellules spécifiques.
Sources :