Pourquoi Excel est votre type de fichier le plus risqué

Les fichiers Excel comptent parmi les plus grands risques RGPD dans la plupart des entreprises. Les dossiers médicaux peuvent contenir des données plus sensibles par ligne. Mais les feuilles de calcul accumulent des données personnelles en silence — et les équipes de conformité les manquent souvent.

Trois choses rendent les fichiers Excel difficiles à gérer.

Volume : Un seul fichier XLSX peut contenir 50 000 lignes et 100 colonnes. Cela représente cinq millions de cellules. Aucune révision manuelle ne peut toutes les vérifier.

Disposition en grille : Le texte coule dans une seule direction. Excel distribue les données sur des lignes et des colonnes. Les données personnelles peuvent se cacher n'importe où dans cette grille.

Contenu mixte : Les grilles salariales, les codes de département et les notes de performance se trouvent dans le même fichier que les numéros de sécurité sociale et les adresses email. Tout effacer rend le fichier inutilisable.

Conservation longue : Les listes du personnel et les bases clients restent dans Excel pendant des années. Le RGPD article 5(1)(e) exige que les données soient conservées « pas plus longtemps que nécessaire ». Les fichiers qui « pourraient être utiles » restent souvent bien au-delà de cette limite.

Pourquoi les analyses de texte standard échouent sur les feuilles de calcul

Les outils d'analyse de texte ont été conçus pour les documents. Ils échouent sur les feuilles de calcul de façon prévisible.

Le problème SSN-comme-nombre

Excel enregistre les numéros de sécurité sociale sans tirets (123456789) comme de simples nombres — pas comme du texte. Un scanner cherchant le motif ###-##-#### ne les trouvera pas. Un bon outil doit savoir qu'un nombre à 9 chiffres dans une colonne appelée « SSN » est un numéro de sécurité sociale.

Le problème date-comme-nombre

Excel stocke les dates comme des numéros de série. Le 6 février 2024 est stocké comme 45329. Un export CSV affichera « 45329 » dans une colonne « Date de naissance ». Un scanner doit convertir ce nombre en date avant de pouvoir l'identifier.

Le problème SSN partiel

Certains systèmes n'affichent que les quatre derniers chiffres d'un SSN (***-**-1234). Le numéro complet se trouve dans une colonne verrouillée. La valeur partielle doit quand même être anonymisée — même si elle ne ressemble pas à un SSN complet.

Le problème des formules PII

Certaines cellules construisent des données personnelles à partir d'autres cellules. Une cellule avec =CONCATENATE(B2;" ";C2) affiche un nom complet. Si vous effacez les colonnes B et C, ce nom reste visible dans la cellule de formule. Les outils qui ne lisent que les valeurs stockées — sans les liens de formule — laissent des données personnelles en place après la purge.

Le problème multi-feuilles

Un grand classeur peut avoir cinq feuilles : Liste clients, Commandes, Tickets support, Facturation et Analyses. Les noms des clients apparaissent dans les cinq. « Jean Dupont » sur une feuille doit devenir le même jeton — « PERSON_0047 » — sur chaque autre feuille. Deux jetons différents brisent les liens entre enregistrements.

Les en-têtes de colonnes comme signal de détection

La principale amélioration dans la détection des PII sur les feuilles de calcul est l'analyse des en-têtes de colonnes.

Une colonne appelée « SSN » indique à l'outil que toutes les valeurs de cette colonne sont des numéros de sécurité sociale. Cela fonctionne même si les valeurs sont partielles, formatées différemment ou stockées comme des nombres.

En-tête de colonne	Signal
SSN / Sécurité sociale / N° fiscal	Traiter les nombres à 9 chiffres comme des SSN
Email / Adresse email	Signaler même les motifs email partiels
Téléphone / Mobile / Portable	Accepter tout format téléphonique
Date naissance / DDN	Convertir les numéros de série en dates
Prénom / Nom / Nom complet	Abaisser le seuil de détection des noms
Adresse / Rue / Ville / CP	Combiner les champs géographiques proches
ID patient / Numéro de dossier	Appliquer les motifs d'identifiant de santé

Le contexte de colonne ne remplace pas l'analyse de contenu. Il la complète. Une colonne « SSN » avec 100 valeurs : l'analyse de contenu en trouve 99 bien formatées. Le contexte de colonne trouve la valeur atypique.

Garder la structure, supprimer les noms

L'objectif dans la plupart des cas RGPD Excel n'est pas de détruire le fichier. Il s'agit de supprimer les données personnelles tout en conservant les parties qui rendent le fichier utile.

Pour un fichier de 15 000 lignes de dossiers du personnel, un responsable de conformité a besoin :

De supprimer :

Noms des employés → jetons PERSON_XXXX
Numéros de sécurité sociale → REDACTED
Adresses email → REDACTED
Numéros de téléphone → REDACTED
Adresses personnelles → REDACTED

De conserver :

Codes de département
Intitulés de poste (rôles généraux uniquement)
Grilles salariales (catégories larges)
Scores de performance (données de groupe)
Dates d'entrée (pour les statistiques d'ancienneté)
Codes managers (si pseudonymisés)

Un outil qui distingue « les données qui nomment les personnes » de « les données qui décrivent les emplois » produit un fichier qui reste utilisable pour l'analyse RH — tout en respectant les règles de minimisation des données du RGPD.

Cas concret : transfert RH lors d'une acquisition

Une société acquéreuse reçoit des données du personnel de la société cible : un XLSX de 15 000 lignes avec 40 colonnes. Le fichier doit être transmis à un cabinet RH externe pour la planification des avantages. Le RGPD autorise uniquement le partage des données nécessaires à cette tâche.

Avant traitement : 40 colonnes avec noms complets, numéros de sécurité sociale, emails, adresses personnelles, contacts d'urgence et coordonnées bancaires.

Après traitement par contexte de colonne :

12 colonnes identifient directement des personnes (noms, SSN, emails, téléphone, adresses, données bancaires) : remplacées par des jetons cohérents
3 colonnes identifient indirectement des personnes (ID employé, code manager, code poste) : remplacées par des jetons pseudonymes cohérents au sein du fichier
25 colonnes sont des données agrégées (grille salariale, département, ancienneté, niveau) : laissées inchangées

Durée : 8 minutes pour 600 000 cellules

Résultat : Même format XLSX, 40 colonnes, 15 anonymisées, 25 inchangées

Journal d'audit : Enregistrement cellule par cellule de chaque action avec type d'entité, score de confiance et signal de colonne utilisé

Le cabinet RH obtient un jeu de données complet pour son travail — sans noms ni identifiants. Le dossier de conformité obtient la preuve que seules les données appropriées ont été partagées.

Ce défi n'est pas propre à Excel. Chaque format de fichier échoue à sa façon. Voir comment la fragmentation des formats affecte la détection des PII.

Trois règles de l'article 5 du RGPD, un seul processus

L'anonymisation structurée des feuilles de calcul satisfait simultanément trois règles.

Minimisation des données (art. 5(1)(c)) : Seules les colonnes nécessaires à la tâche sont transmises. Les colonnes identifiantes sont effacées.

Limitation de la conservation (art. 5(1)(e)) : Le fichier original reste en place pour les durées légales de conservation. Une copie propre est créée pour le partage — avec des exigences de conservation plus courtes ou nulles.

Intégrité et confidentialité (art. 5(1)(f)) : Aucune donnée identifiante ne quitte la zone de contrôle. Seules les copies propres sont partagées.

Le journal d'audit du processus est aussi votre preuve au titre de l'article 5(2). Il montre comment chaque règle a été respectée pour chaque fichier.

Si votre équipe gère des droits d'accès (DSAR) ou de grands exports de données, la même logique s'applique au niveau de l'API. Voir comment la minimisation des données RGPD fonctionne dans les API temps réel.

Pour les équipes traitant de gros volumes sous des délais serrés, voir traitement DSAR RGPD en lot à grande échelle.

Sources

Articles connexes

GDPR & Conformité

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

Commencer l'essai gratuit Voir les fonctionnalités

Excel et GDPR : Comment anonymiser des feuilles de...

Pourquoi Excel est votre type de fichier le plus risqué

Pourquoi les analyses de texte standard échouent sur les feuilles de calcul

Le problème SSN-comme-nombre

Le problème date-comme-nombre

Le problème SSN partiel

Le problème des formules PII

Le problème multi-feuilles

Les en-têtes de colonnes comme signal de détection

Garder la structure, supprimer les noms

Cas concret : transfert RH lors d'une acquisition

Trois règles de l'article 5 du RGPD, un seul processus

Sources

Articles connexes

Pourquoi les outils PII auto-hébergés échouent aux...

Ce que Presidio oublie : Les 220+ types d'entités...

Le Coût de la Conformité d'une Rédaction Incohérente...

Prêt à protéger vos données ?

Excel et GDPR : Comment anonymiser des feuilles de...

Pourquoi Excel est votre type de fichier le plus risqué

Pourquoi les analyses de texte standard échouent sur les feuilles de calcul

Le problème SSN-comme-nombre

Le problème date-comme-nombre

Le problème SSN partiel

Le problème des formules PII

Le problème multi-feuilles

Les en-têtes de colonnes comme signal de détection

Garder la structure, supprimer les noms

Cas concret : transfert RH lors d'une acquisition

Trois règles de l'article 5 du RGPD, un seul processus

Sources

Articles connexes

Pourquoi les outils PII auto-hébergés échouent aux...

Ce que Presidio oublie : Les 220+ types d'entités...

Le Coût de la Conformité d'une Rédaction Incohérente...

Prêt à protéger vos données ?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow