Pourquoi Excel est votre type de fichier le plus risqué
Les fichiers Excel comptent parmi les plus grands risques RGPD dans la plupart des entreprises. Les dossiers médicaux peuvent contenir des données plus sensibles par ligne. Mais les feuilles de calcul accumulent des données personnelles en silence — et les équipes de conformité les manquent souvent.
Trois choses rendent les fichiers Excel difficiles à gérer.
Volume : Un seul fichier XLSX peut contenir 50 000 lignes et 100 colonnes. Cela représente cinq millions de cellules. Aucune révision manuelle ne peut toutes les vérifier.
Disposition en grille : Le texte coule dans une seule direction. Excel distribue les données sur des lignes et des colonnes. Les données personnelles peuvent se cacher n'importe où dans cette grille.
Contenu mixte : Les grilles salariales, les codes de département et les notes de performance se trouvent dans le même fichier que les numéros de sécurité sociale et les adresses email. Tout effacer rend le fichier inutilisable.
Conservation longue : Les listes du personnel et les bases clients restent dans Excel pendant des années. Le RGPD article 5(1)(e) exige que les données soient conservées « pas plus longtemps que nécessaire ». Les fichiers qui « pourraient être utiles » restent souvent bien au-delà de cette limite.
Pourquoi les analyses de texte standard échouent sur les feuilles de calcul
Les outils d'analyse de texte ont été conçus pour les documents. Ils échouent sur les feuilles de calcul de façon prévisible.
Le problème SSN-comme-nombre
Excel enregistre les numéros de sécurité sociale sans tirets (123456789) comme de simples nombres — pas comme du texte. Un scanner cherchant le motif ###-##-#### ne les trouvera pas. Un bon outil doit savoir qu'un nombre à 9 chiffres dans une colonne appelée « SSN » est un numéro de sécurité sociale.
Le problème date-comme-nombre
Excel stocke les dates comme des numéros de série. Le 6 février 2024 est stocké comme 45329. Un export CSV affichera « 45329 » dans une colonne « Date de naissance ». Un scanner doit convertir ce nombre en date avant de pouvoir l'identifier.
Le problème SSN partiel
Certains systèmes n'affichent que les quatre derniers chiffres d'un SSN (***-**-1234). Le numéro complet se trouve dans une colonne verrouillée. La valeur partielle doit quand même être anonymisée — même si elle ne ressemble pas à un SSN complet.
Le problème des formules PII
Certaines cellules construisent des données personnelles à partir d'autres cellules. Une cellule avec =CONCATENATE(B2;" ";C2) affiche un nom complet. Si vous effacez les colonnes B et C, ce nom reste visible dans la cellule de formule. Les outils qui ne lisent que les valeurs stockées — sans les liens de formule — laissent des données personnelles en place après la purge.
Le problème multi-feuilles
Un grand classeur peut avoir cinq feuilles : Liste clients, Commandes, Tickets support, Facturation et Analyses. Les noms des clients apparaissent dans les cinq. « Jean Dupont » sur une feuille doit devenir le même jeton — « PERSON_0047 » — sur chaque autre feuille. Deux jetons différents brisent les liens entre enregistrements.
Les en-têtes de colonnes comme signal de détection
La principale amélioration dans la détection des PII sur les feuilles de calcul est l'analyse des en-têtes de colonnes.
Une colonne appelée « SSN » indique à l'outil que toutes les valeurs de cette colonne sont des numéros de sécurité sociale. Cela fonctionne même si les valeurs sont partielles, formatées différemment ou stockées comme des nombres.
| En-tête de colonne | Signal |
|---|---|
| SSN / Sécurité sociale / N° fiscal | Traiter les nombres à 9 chiffres comme des SSN |
| Email / Adresse email | Signaler même les motifs email partiels |
| Téléphone / Mobile / Portable | Accepter tout format téléphonique |
| Date naissance / DDN | Convertir les numéros de série en dates |
| Prénom / Nom / Nom complet | Abaisser le seuil de détection des noms |
| Adresse / Rue / Ville / CP | Combiner les champs géographiques proches |
| ID patient / Numéro de dossier | Appliquer les motifs d'identifiant de santé |
Le contexte de colonne ne remplace pas l'analyse de contenu. Il la complète. Une colonne « SSN » avec 100 valeurs : l'analyse de contenu en trouve 99 bien formatées. Le contexte de colonne trouve la valeur atypique.
Garder la structure, supprimer les noms
L'objectif dans la plupart des cas RGPD Excel n'est pas de détruire le fichier. Il s'agit de supprimer les données personnelles tout en conservant les parties qui rendent le fichier utile.
Pour un fichier de 15 000 lignes de dossiers du personnel, un responsable de conformité a besoin :
De supprimer :
- Noms des employés → jetons PERSON_XXXX
- Numéros de sécurité sociale → REDACTED
- Adresses email → REDACTED
- Numéros de téléphone → REDACTED
- Adresses personnelles → REDACTED
De conserver :
- Codes de département
- Intitulés de poste (rôles généraux uniquement)
- Grilles salariales (catégories larges)
- Scores de performance (données de groupe)
- Dates d'entrée (pour les statistiques d'ancienneté)
- Codes managers (si pseudonymisés)
Un outil qui distingue « les données qui nomment les personnes » de « les données qui décrivent les emplois » produit un fichier qui reste utilisable pour l'analyse RH — tout en respectant les règles de minimisation des données du RGPD.
Cas concret : transfert RH lors d'une acquisition
Une société acquéreuse reçoit des données du personnel de la société cible : un XLSX de 15 000 lignes avec 40 colonnes. Le fichier doit être transmis à un cabinet RH externe pour la planification des avantages. Le RGPD autorise uniquement le partage des données nécessaires à cette tâche.
Avant traitement : 40 colonnes avec noms complets, numéros de sécurité sociale, emails, adresses personnelles, contacts d'urgence et coordonnées bancaires.
Après traitement par contexte de colonne :
- 12 colonnes identifient directement des personnes (noms, SSN, emails, téléphone, adresses, données bancaires) : remplacées par des jetons cohérents
- 3 colonnes identifient indirectement des personnes (ID employé, code manager, code poste) : remplacées par des jetons pseudonymes cohérents au sein du fichier
- 25 colonnes sont des données agrégées (grille salariale, département, ancienneté, niveau) : laissées inchangées
Durée : 8 minutes pour 600 000 cellules
Résultat : Même format XLSX, 40 colonnes, 15 anonymisées, 25 inchangées
Journal d'audit : Enregistrement cellule par cellule de chaque action avec type d'entité, score de confiance et signal de colonne utilisé
Le cabinet RH obtient un jeu de données complet pour son travail — sans noms ni identifiants. Le dossier de conformité obtient la preuve que seules les données appropriées ont été partagées.
Ce défi n'est pas propre à Excel. Chaque format de fichier échoue à sa façon. Voir comment la fragmentation des formats affecte la détection des PII.
Trois règles de l'article 5 du RGPD, un seul processus
L'anonymisation structurée des feuilles de calcul satisfait simultanément trois règles.
Minimisation des données (art. 5(1)(c)) : Seules les colonnes nécessaires à la tâche sont transmises. Les colonnes identifiantes sont effacées.
Limitation de la conservation (art. 5(1)(e)) : Le fichier original reste en place pour les durées légales de conservation. Une copie propre est créée pour le partage — avec des exigences de conservation plus courtes ou nulles.
Intégrité et confidentialité (art. 5(1)(f)) : Aucune donnée identifiante ne quitte la zone de contrôle. Seules les copies propres sont partagées.
Le journal d'audit du processus est aussi votre preuve au titre de l'article 5(2). Il montre comment chaque règle a été respectée pour chaque fichier.
Si votre équipe gère des droits d'accès (DSAR) ou de grands exports de données, la même logique s'applique au niveau de l'API. Voir comment la minimisation des données RGPD fonctionne dans les API temps réel.
Pour les équipes traitant de gros volumes sous des délais serrés, voir traitement DSAR RGPD en lot à grande échelle.