Retour au blogGDPR & Conformité

Publication de recherche PII : Pourquoi vos captures d'écran d'analyse de données pourraient violer le RGPD sans que vous le sachiez

Les articles académiques incluent régulièrement des DataFrames pandas et des sorties R montrant de véritables dossiers de patients comme exemples de méthodologie. Voici pourquoi cela constitue une violation du RGPD et comment filtrer les manuscrits avant soumission.

March 7, 20267 min de lecture
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Le problème des captures d'écran de méthodologie

Les publications académiques et de recherche ont développé un modèle de documentation qui crée un risque sous-estimé en matière de RGPD : des captures d'écran d'environnements d'analyse de données montrant des données réelles dans le cadre de la démonstration de la méthodologie.

Les scénarios sont courants :

  • Un article sur l'apprentissage automatique inclut une capture d'écran d'un DataFrame pandas montrant les 10 premières lignes de l'ensemble de données d'entraînement — qui contient de véritables dossiers de patients provenant de la source de données
  • Un article d'analyse de données cliniques montre une sortie R avec des valeurs individuelles de patients dans un tableau récapitulatif, avec des identifiants de patients partiellement visibles
  • Un article de sciences sociales computationnelles inclut des tableaux de sortie SPSS montrant des valeurs individuelles de répondants à une enquête dans le cadre de l'explication de la procédure d'analyse
  • Un tutoriel d'ingénierie des données publié dans une revue de recherche inclut des captures d'écran de notebooks Jupyter avec de véritables dossiers d'utilisateurs utilisés comme "données d'exemple" pour l'illustration

Dans chaque cas, l'auteur n'avait pas l'intention de publier des données personnelles. La capture d'écran a été incluse pour documenter la méthodologie. Les données personnelles dans la capture d'écran étaient accessoires — présentes pour rendre l'exemple concret.

Mais "accessoire" ne signifie pas conforme. L'article 4(1) du RGPD définit les données personnelles comme toute information se rapportant à une personne physique identifiée ou identifiable. Un dossier de patient dans un article publié — même sous forme de capture d'écran — est une donnée personnelle. Le publier sans le consentement du patient ou une autre base légale en vertu de l'article 6 constitue une violation du RGPD.

Pourquoi cela crée un risque juridique concret

Les institutions de recherche font face de plus en plus à l'application du RGPD pour des échecs de publication de données. Développements clés :

Demandes de retrait d'articles : Le droit à l'effacement du RGPD (article 17) s'étend aux données publiées. Si un sujet de données découvre ses données personnelles dans un article publié, il peut demander l'effacement — ce qui, pour un article de revue, signifie généralement un retrait ou un avis de correction. Le retrait d'un article est une conséquence professionnelle significative.

Constats des comités d'éthique de la recherche : Les comités d'éthique de la recherche examinant les recherches publiées pour conformité au RGPD ont commencé à émettre des constats pour les articles incluant des données au niveau individuel dans des captures d'écran sans protections appropriées. Ces constats affectent la réputation des chercheurs auprès des comités d'éthique pour des recherches futures.

Violations des accords d'accès aux données : La plupart des ensembles de données de recherche sont partagés sous des accords d'accès aux données qui spécifient comment les données peuvent être utilisées et ce qui peut être publié. Inclure des données au niveau individuel dans des captures d'écran de publication, même sous forme de vignettes, peut violer l'ADA — avec des conséquences incluant la perte des privilèges d'accès aux données.

Limitations des exemptions de recherche de l'article 89 du RGPD : L'article 89 du RGPD permet le traitement des données personnelles pour la recherche scientifique avec des obligations réduites — mais uniquement lorsque des "protections appropriées" sont mises en œuvre. Publier des données au niveau individuel dans des captures d'écran de méthodologie sans anonymisation n'est pas une protection appropriée ; c'est une divulgation.

L'ampleur du problème

L'incidence n'est pas rare. Une revue systématique des articles de science des données publiés dans des revues à fort impact entre 2022 et 2024 trouverait probablement une proportion significative contenant des images avec des données au niveau individuel visibles.

Les facteurs contributifs :

Normes de reproductibilité : La publication scientifique moderne exige de plus en plus que les méthodes soient documentées avec suffisamment de détails pour reproduire les résultats. Les captures d'écran des environnements d'analyse sont considérées comme répondant à cette norme.

Vitesse de publication : Sous pression des délais, les chercheurs génèrent rapidement des captures d'écran sans examiner chaque image pour son contenu en données.

Visibilité faible des données dans les images : Une capture d'écran d'un DataFrame avec 20 colonnes et 5 lignes peut contenir des noms et des identifiants dans des colonnes périphériques sur lesquelles le chercheur ne se concentre pas lors de la documentation de la procédure d'analyse.

Pas de vérification automatisée dans les flux de soumission : Les portails de soumission standard des revues effectuent des vérifications de complétude, des vérifications de format et un dépistage du plagiat. Aucun ne réalise de détection de PII dans les images.

Mise en œuvre du filtrage pour les groupes de recherche

Un flux de travail pratique pour un groupe de recherche mettant en œuvre le filtrage PII des manuscrits :

Protocole de pré-soumission :

  1. Le chercheur complète le brouillon du manuscrit avec toutes les figures
  2. Le brouillon est soumis à un filtrage interne (PI ou réviseur désigné)
  3. La détection de PII dans les images est effectuée sur tous les fichiers d'image joints au manuscrit
  4. Le rapport de détection identifie : quelles images contiennent du texte lisible, quel texte correspond aux modèles d'entités PII
  5. Le chercheur examine les images signalées
  6. Pour chaque image signalée : remplacer par une capture d'écran correctement anonymisée (substituer l'ID patient 12847 par l'ID 00001, remplacer le vrai nom par "Patient A")
  7. Le manuscrit final est soumis à la revue avec des captures d'écran anonymisées

Options d'intégration technique :

  • Manuel : exporter toutes les images du manuscrit, exécuter la détection de PII par lot, examiner le rapport
  • Semi-automatisé : dossier dédié où les brouillons de manuscrits sont déposés ; traitement par lot hebdomadaire sur les nouveaux fichiers
  • Intégré au flux de travail : portail de soumission institutionnel avec étape de filtrage avant soumission

Le coût en temps du filtrage est faible : pour un manuscrit typique de 15 figures, la détection de PII dans les images prend moins de 2 minutes. Le coût en temps d'un retrait ou d'un constat de comité d'éthique se mesure en mois.

Cas d'utilisation : Exigence d'éthique de recherche universitaire européenne

Un groupe de recherche en science des données dans une université européenne a mis en œuvre le filtrage PII des images dans le cadre de leur flux de travail de soumission de manuscrits après un incident évité de justesse : un examen d'un article soumis a détecté des noms de patients individuels dans une capture d'écran de DataFrame qui avait été incluse comme illustration de méthodologie.

Mise en œuvre :

  • Tous les articles brouillons traités pour PII d'image avant soumission aux revues
  • Le filtrage couvre toutes les figures PNG, JPG et PDF dans le brouillon
  • Les résultats sont examinés par le contact désigné en matière de protection des données du groupe

Résultats sur 6 mois :

  • 23 manuscrits filtrés avant soumission
  • 7 manuscrits (30 %) avaient au moins une image avec des entités PII détectables
  • Types d'entités trouvées : noms de patients dans des DataFrames (4 articles), identifiants d'utilisateurs correspondant aux formats d'enregistrement des patients (2 articles), adresses e-mail dans les marges des captures d'écran (1 article)
  • Tous les 7 corrigés avant soumission
  • Zéro demande de retrait post-soumission ou constat d'éthique pendant la période

Le comité d'éthique de la recherche de l'institution utilise désormais ce flux de travail comme exemple documenté de "protections appropriées" dans les demandes d'exemption de recherche de l'article 89 du RGPD.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.