By · Last updated 2026-06-05

Retour au blogGDPR & Conformité

Excel et GDPR : Comment anonymiser des feuilles de...

Excel est l'un des types de documents les plus denses en PII dans les opérations commerciales.

June 5, 20268 min de lecture
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Pourquoi Excel est votre type de fichier le plus risqué

Les fichiers Excel comptent parmi les plus grands risques RGPD dans la plupart des entreprises. Les dossiers médicaux peuvent contenir des données plus sensibles par ligne. Mais les feuilles de calcul accumulent des données personnelles en silence — et les équipes de conformité les manquent souvent.

Trois choses rendent les fichiers Excel difficiles à gérer.

Volume : Un seul fichier XLSX peut contenir 50 000 lignes et 100 colonnes. Cela représente cinq millions de cellules. Aucune révision manuelle ne peut toutes les vérifier.

Disposition en grille : Le texte coule dans une seule direction. Excel distribue les données sur des lignes et des colonnes. Les données personnelles peuvent se cacher n'importe où dans cette grille.

Contenu mixte : Les grilles salariales, les codes de département et les notes de performance se trouvent dans le même fichier que les numéros de sécurité sociale et les adresses email. Tout effacer rend le fichier inutilisable.

Conservation longue : Les listes du personnel et les bases clients restent dans Excel pendant des années. Le RGPD article 5(1)(e) exige que les données soient conservées « pas plus longtemps que nécessaire ». Les fichiers qui « pourraient être utiles » restent souvent bien au-delà de cette limite.

Pourquoi les analyses de texte standard échouent sur les feuilles de calcul

Les outils d'analyse de texte ont été conçus pour les documents. Ils échouent sur les feuilles de calcul de façon prévisible.

Le problème SSN-comme-nombre

Excel enregistre les numéros de sécurité sociale sans tirets (123456789) comme de simples nombres — pas comme du texte. Un scanner cherchant le motif ###-##-#### ne les trouvera pas. Un bon outil doit savoir qu'un nombre à 9 chiffres dans une colonne appelée « SSN » est un numéro de sécurité sociale.

Le problème date-comme-nombre

Excel stocke les dates comme des numéros de série. Le 6 février 2024 est stocké comme 45329. Un export CSV affichera « 45329 » dans une colonne « Date de naissance ». Un scanner doit convertir ce nombre en date avant de pouvoir l'identifier.

Le problème SSN partiel

Certains systèmes n'affichent que les quatre derniers chiffres d'un SSN (***-**-1234). Le numéro complet se trouve dans une colonne verrouillée. La valeur partielle doit quand même être anonymisée — même si elle ne ressemble pas à un SSN complet.

Le problème des formules PII

Certaines cellules construisent des données personnelles à partir d'autres cellules. Une cellule avec =CONCATENATE(B2;" ";C2) affiche un nom complet. Si vous effacez les colonnes B et C, ce nom reste visible dans la cellule de formule. Les outils qui ne lisent que les valeurs stockées — sans les liens de formule — laissent des données personnelles en place après la purge.

Le problème multi-feuilles

Un grand classeur peut avoir cinq feuilles : Liste clients, Commandes, Tickets support, Facturation et Analyses. Les noms des clients apparaissent dans les cinq. « Jean Dupont » sur une feuille doit devenir le même jeton — « PERSON_0047 » — sur chaque autre feuille. Deux jetons différents brisent les liens entre enregistrements.

Les en-têtes de colonnes comme signal de détection

La principale amélioration dans la détection des PII sur les feuilles de calcul est l'analyse des en-têtes de colonnes.

Une colonne appelée « SSN » indique à l'outil que toutes les valeurs de cette colonne sont des numéros de sécurité sociale. Cela fonctionne même si les valeurs sont partielles, formatées différemment ou stockées comme des nombres.

En-tête de colonneSignal
SSN / Sécurité sociale / N° fiscalTraiter les nombres à 9 chiffres comme des SSN
Email / Adresse emailSignaler même les motifs email partiels
Téléphone / Mobile / PortableAccepter tout format téléphonique
Date naissance / DDNConvertir les numéros de série en dates
Prénom / Nom / Nom completAbaisser le seuil de détection des noms
Adresse / Rue / Ville / CPCombiner les champs géographiques proches
ID patient / Numéro de dossierAppliquer les motifs d'identifiant de santé

Le contexte de colonne ne remplace pas l'analyse de contenu. Il la complète. Une colonne « SSN » avec 100 valeurs : l'analyse de contenu en trouve 99 bien formatées. Le contexte de colonne trouve la valeur atypique.

Garder la structure, supprimer les noms

L'objectif dans la plupart des cas RGPD Excel n'est pas de détruire le fichier. Il s'agit de supprimer les données personnelles tout en conservant les parties qui rendent le fichier utile.

Pour un fichier de 15 000 lignes de dossiers du personnel, un responsable de conformité a besoin :

De supprimer :

  • Noms des employés → jetons PERSON_XXXX
  • Numéros de sécurité sociale → REDACTED
  • Adresses email → REDACTED
  • Numéros de téléphone → REDACTED
  • Adresses personnelles → REDACTED

De conserver :

  • Codes de département
  • Intitulés de poste (rôles généraux uniquement)
  • Grilles salariales (catégories larges)
  • Scores de performance (données de groupe)
  • Dates d'entrée (pour les statistiques d'ancienneté)
  • Codes managers (si pseudonymisés)

Un outil qui distingue « les données qui nomment les personnes » de « les données qui décrivent les emplois » produit un fichier qui reste utilisable pour l'analyse RH — tout en respectant les règles de minimisation des données du RGPD.

Cas concret : transfert RH lors d'une acquisition

Une société acquéreuse reçoit des données du personnel de la société cible : un XLSX de 15 000 lignes avec 40 colonnes. Le fichier doit être transmis à un cabinet RH externe pour la planification des avantages. Le RGPD autorise uniquement le partage des données nécessaires à cette tâche.

Avant traitement : 40 colonnes avec noms complets, numéros de sécurité sociale, emails, adresses personnelles, contacts d'urgence et coordonnées bancaires.

Après traitement par contexte de colonne :

  • 12 colonnes identifient directement des personnes (noms, SSN, emails, téléphone, adresses, données bancaires) : remplacées par des jetons cohérents
  • 3 colonnes identifient indirectement des personnes (ID employé, code manager, code poste) : remplacées par des jetons pseudonymes cohérents au sein du fichier
  • 25 colonnes sont des données agrégées (grille salariale, département, ancienneté, niveau) : laissées inchangées

Durée : 8 minutes pour 600 000 cellules

Résultat : Même format XLSX, 40 colonnes, 15 anonymisées, 25 inchangées

Journal d'audit : Enregistrement cellule par cellule de chaque action avec type d'entité, score de confiance et signal de colonne utilisé

Le cabinet RH obtient un jeu de données complet pour son travail — sans noms ni identifiants. Le dossier de conformité obtient la preuve que seules les données appropriées ont été partagées.

Ce défi n'est pas propre à Excel. Chaque format de fichier échoue à sa façon. Voir comment la fragmentation des formats affecte la détection des PII.

Trois règles de l'article 5 du RGPD, un seul processus

L'anonymisation structurée des feuilles de calcul satisfait simultanément trois règles.

Minimisation des données (art. 5(1)(c)) : Seules les colonnes nécessaires à la tâche sont transmises. Les colonnes identifiantes sont effacées.

Limitation de la conservation (art. 5(1)(e)) : Le fichier original reste en place pour les durées légales de conservation. Une copie propre est créée pour le partage — avec des exigences de conservation plus courtes ou nulles.

Intégrité et confidentialité (art. 5(1)(f)) : Aucune donnée identifiante ne quitte la zone de contrôle. Seules les copies propres sont partagées.

Le journal d'audit du processus est aussi votre preuve au titre de l'article 5(2). Il montre comment chaque règle a été respectée pour chaque fichier.

Si votre équipe gère des droits d'accès (DSAR) ou de grands exports de données, la même logique s'applique au niveau de l'API. Voir comment la minimisation des données RGPD fonctionne dans les API temps réel.

Pour les équipes traitant de gros volumes sous des délais serrés, voir traitement DSAR RGPD en lot à grande échelle.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.