Retour au blogGDPR & Conformité

Pourquoi 'Supprimer la colonne Email' ne suffit pas : Détection des PII dans les champs de texte libre CSV pour le partage de données de recherche

Les CSV d'enquête contiennent des PII non seulement dans des colonnes structurées mais aussi dans des réponses en texte libre. La suppression standard des colonnes ne détecte pas les PII qui violent la norme d'anonymisation du GDPR.

March 7, 20267 min de lecture
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Le problème des PII structurés vs. en texte libre

Les données de recherche partagées entre les institutions académiques circulent le plus souvent au format CSV. Lorsque les chercheurs préparent des CSV pour le partage, la liste de contrôle standard d'anonymisation est basée sur les colonnes : identifier les colonnes contenant des données personnelles, supprimer ou pseudonymiser ces colonnes.

Cette approche gère de manière fiable les PII structurés. Une colonne nommée "email" contient des adresses email — supprimez-la. Une colonne nommée "phone" contient des numéros de téléphone — supprimez-la. Une colonne nommée "participant_name" contient des noms — pseudonymisez-la.

Ce que l'approche de suppression de colonnes ne prend pas en compte : les PII intégrés dans les colonnes de réponses en texte libre.

Un ensemble de données d'enquête avec 5 000 lignes et 20 colonnes pourrait avoir :

  • 5 colonnes PII structurées (nom, email, téléphone, ID, année de naissance)
  • 15 colonnes de réponses en texte libre ("additional_comments", "describe_experience", "what_would_improve", "other_details")

Les colonnes structurées sont nettoyées par suppression de colonnes. Les colonnes en texte libre restent telles quelles. Mais les répondants à l'enquête écrivent des choses comme :

  • "Mon médecin au Boston Medical Center, Dr. Maria Santos, a dit que le traitement était expérimental"
  • "Je gère cela depuis mon accident en 2019 quand la voiture de John Henderson a heurté la mienne"
  • "Vous pouvez contacter mon aidant à margaret.wells@gmail.com si vous avez besoin de plus d'informations"

Ces entrées contiennent des individus nommés, des affiliations institutionnelles, des informations de santé et des coordonnées — aucune de ces informations n'apparaît dans les en-têtes de colonnes, et aucune n'est capturée par l'anonymisation par suppression de colonnes.

Pourquoi cela échoue à respecter la norme d'anonymisation du GDPR

Le considérant 26 du GDPR définit les données anonymes comme des informations qui "ne se rapportent pas à une personne physique identifiée ou identifiable." La norme d'anonymisation est un seuil élevé : les données ne sont anonymes que si elles sont "impossibles" (selon une estimation raisonnable) à identifier.

Un CSV de recherche partiellement anonymisé — colonnes structurées nettoyées, colonnes de texte libre contenant des individus nommés — ne respecte pas cette norme. Les individus nommés dans les réponses en texte libre sont identifiables, et l'ensemble de données reste donc des données personnelles soumises aux exigences de sauvegarde de l'article 89 du GDPR.

Cela a de l'importance pour plusieurs contextes de recherche :

Exemption de recherche de l'article 89 : L'article 89 du GDPR permet le traitement des données personnelles à des fins de recherche scientifique avec des obligations réduites, mais seulement lorsque des "garanties appropriées" sont en place. Partager un ensemble de données qui est partiellement anonymisé (mais qui contient toujours des PII en texte libre) tout en affirmant qu'il satisfait aux garanties de l'article 89 est un échec de conformité.

Approbation du comité d'éthique de recherche : La plupart des IRB académiques et des comités de révision éthique exigent que les ensembles de données partagés soient réellement anonymisés. L'anonymisation partielle qui laisse les PII en texte libre intacts ne satisfait généralement pas aux conditions d'approbation éthique.

Accords de partage de données entre institutions : Les DSA pour les données de recherche spécifient généralement que les données partagées doivent être anonymisées selon une norme définie. L'anonymisation partielle qui échoue au considérant 26 du GDPR peut enfreindre le DSA.

Le défi technique de la détection des PII en texte libre

Les réponses d'enquête en texte libre sont parmi les cibles de détection de PII les plus difficiles car :

Nomination contextuelle : "Dr. Maria Santos au Boston Medical Center" nécessite une NER pour détecter "Maria Santos" comme une personne et "Boston Medical Center" comme une organisation — pas une correspondance de mot-clé. Les motifs ne sont pas prévisibles.

Identification incidente : "La voiture de John Henderson a heurté la mienne" nécessite une NER pour identifier "John Henderson" comme un individu nommé dans un contexte narratif — pas un champ de données mais une personne référencée dans une histoire.

Informations de contact dans des formats inattendus : Les adresses email et les numéros de téléphone apparaissant en texte libre peuvent avoir un format non standard ("contactez-moi à margaret point wells à gmail") que la détection uniquement par regex ne capture pas.

Types d'entités spécifiques à la recherche : Les données de recherche académiques et cliniques contiennent souvent des identifiants institutionnels (ID d'hôpital, codes de site de recherche), une terminologie clinique et des références de localisation qui sont des PII dans le contexte même si cela n'est pas évident.

C'est pourquoi la détection basée sur le NLP — plutôt que la simple correspondance de motifs — est nécessaire pour une véritable anonymisation des enquêtes en texte libre.

Cas d'utilisation : Consortium de recherche multi-institutionnel

Un consortium de recherche dans trois universités européennes a mené une enquête sur l'expérience des patients : 5 000 répondants, 3 colonnes PII structurées et 8 colonnes de réponses en texte libre. Les données devaient être partagées entre les institutions pour une analyse collaborative dans le cadre d'un accord de partage de données et de l'exemption de l'article 89 du GDPR.

Approche standard (suppression de colonnes uniquement) :

  • 3 colonnes PII structurées supprimées
  • 8 colonnes de texte libre conservées telles quelles
  • Réclamation de conformité : "Colonnes PII supprimées"
  • PII réel restant : 47 individus nommés mentionnés dans les réponses en texte libre, 23 adresses email fournies dans les commentaires, 18 références de localisation qui pourraient identifier les répondants dans le contexte

Avec détection NLP en texte libre :

  • 3 colonnes PII structurées pseudonymisées (tokens cohérents, non supprimés — préservant l'intégrité du nombre de lignes)
  • 8 colonnes de texte libre traitées : 47 noms de personnes détectés et remplacés, 23 adresses email détectées et masquées, 18 références de localisation détectées et généralisées ("Boston Medical Center" → "[Institution de Santé]")
  • Sortie : ensemble de données véritablement anonymisé répondant à la norme du considérant 26 du GDPR
  • Le comité d'éthique de recherche a accepté la méthodologie d'anonymisation
  • Conformité DSA confirmée par la révision du DPO

La différence : la deuxième approche produit un ensemble de données qui satisfait réellement la norme d'anonymisation. La première approche produit un ensemble de données qui semble anonymisé mais contient des informations identifiables dans les colonnes qui n'ont pas été examinées.

Élaboration d'un protocole d'anonymisation des données de recherche

Pour les équipes de recherche travaillant avec des données d'enquête et d'entretien, un protocole structuré avant le partage :

Étape 1 : Classification des colonnes

  • Catégoriser toutes les colonnes : PII structurés, non-PII structurés, réponse en texte libre
  • Documenter la classification

Étape 2 : Gestion des PII structurés

  • Supprimer (si non nécessaire pour la recherche) ou pseudonymiser (si nécessaire pour le lien d'enregistrement)
  • Documenter les tokens de remplacement utilisés

Étape 3 : Analyse du contenu en texte libre

  • Exécuter la détection NLP sur toutes les colonnes de texte libre
  • Examiner les entités détectées : confirmer lesquelles représentent de véritables PII
  • Appliquer des remplacements pour les entités PII confirmées

Étape 4 : Vérification

  • Échantillonner 50-100 lignes de l'ensemble de données de sortie
  • Examen manuel de toutes les entrées en texte libre contenant des entités détectées
  • Confirmer que le taux de détection est approprié pour le type de colonne

Étape 5 : Documentation

  • Document de méthodologie d'anonymisation : outils utilisés, types d'entités détectées, colonnes traitées
  • Partager le document de méthodologie avec l'ensemble de données anonymisé pour révision éthique

Ce protocole transforme "nous avons supprimé la colonne de nom" en un processus d'anonymisation défendable et documenté qui satisfait aux exigences de l'article 89 du GDPR et des exigences éthiques de recherche institutionnelle.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.