Voltar ao BlogGDPR & Conformidade

Publicação de Pesquisa PII: Por Que Seus Capturas de Tela de Análise de Dados Podem Estar Violando o GDPR Sem Você Saber

Artigos acadêmicos incluem regularmente DataFrames do pandas e saídas do R mostrando registros reais de pacientes como exemplos de metodologia. Aqui está o porquê de isso ser uma violação do GDPR e como revisar manuscritos antes da submissão.

March 7, 20267 min de leitura
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

O Problema da Captura de Tela da Metodologia

Publicações acadêmicas e de pesquisa desenvolveram um padrão de documentação que cria um risco de GDPR subestimado: capturas de tela de ambientes de análise de dados mostrando dados reais como parte da demonstração da metodologia.

Os cenários são comuns:

  • Um artigo de aprendizado de máquina inclui uma captura de tela de um DataFrame do pandas mostrando as primeiras 10 linhas do conjunto de dados de treinamento — que contém registros reais de pacientes da fonte de dados
  • Um artigo de análise de dados clínicos mostra a saída do R com valores individuais de pacientes em uma tabela resumo, com IDs de pacientes parcialmente visíveis
  • Um artigo de ciência social computacional inclui tabelas de saída do SPSS que mostram valores individuais de respondentes da pesquisa como parte da explicação do procedimento de análise
  • Um tutorial de engenharia de dados publicado em uma revista de pesquisa inclui capturas de tela de notebooks Jupyter com registros reais de usuários usados como "dados de exemplo" para a ilustração

Em cada caso, o autor não tinha a intenção de publicar dados pessoais. A captura de tela foi incluída para documentar a metodologia. Os dados pessoais na captura de tela eram incidentais — ali para tornar o exemplo concreto.

Mas "incidental" não torna isso compatível. O Artigo 4(1) do GDPR define dados pessoais como qualquer informação relacionada a uma pessoa natural identificada ou identificável. Um registro de paciente em um artigo publicado — mesmo como uma captura de tela — é dado pessoal. Publicá-lo sem o consentimento do paciente ou outra base legal sob o Artigo 6 é uma violação do GDPR.

Instituições de pesquisa enfrentam cada vez mais a aplicação do GDPR por falhas na publicação de dados. Principais desenvolvimentos:

Pedidos de retratação de revistas: O direito ao apagamento do GDPR (Artigo 17) se estende a dados publicados. Se um titular de dados descobrir seus dados pessoais em um artigo publicado, pode solicitar o apagamento — o que, para um artigo de revista, geralmente significa retratação ou aviso de correção. A retratação de um artigo é uma consequência profissional significativa.

Constatações de comitês de ética em pesquisa: Comissões de ética em pesquisa que revisam pesquisas publicadas para conformidade com o GDPR começaram a emitir constatações para artigos que incluem dados em nível individual em capturas de tela sem as salvaguardas apropriadas. Essas constatações afetam a posição dos pesquisadores com os comitês de ética para pesquisas futuras.

Violações de Acordos de Acesso a Dados: A maioria dos conjuntos de dados de pesquisa é compartilhada sob Acordos de Acesso a Dados que especificam como os dados podem ser usados e o que pode ser publicado. Incluir dados em nível individual em capturas de tela de publicações, mesmo como miniaturas, pode violar o DAA — com consequências que incluem a perda de privilégios de acesso a dados.

Limitações das isenções de pesquisa do Artigo 89 do GDPR: O Artigo 89 do GDPR permite o processamento de dados pessoais para pesquisa científica com obrigações reduzidas — mas apenas onde "salvaguardas apropriadas" são implementadas. Publicar dados em nível individual em capturas de tela de metodologia sem anonimização não é uma salvaguarda apropriada; é uma divulgação.

A Escala do Problema

A incidência não é rara. Uma revisão sistemática de artigos de ciência de dados publicados em revistas de alto impacto entre 2022-2024 provavelmente encontraria uma proporção significativa contendo imagens com dados em nível individual visíveis.

Os fatores contribuintes:

Normas de reprodutibilidade: A publicação científica moderna exige cada vez mais que os métodos sejam documentados com detalhes suficientes para reproduzir resultados. Capturas de tela de ambientes de análise são vistas como atendendo a essa norma.

Velocidade de publicação: Sob pressão de prazos, os pesquisadores geram capturas de tela rapidamente sem revisar cada imagem quanto ao conteúdo dos dados.

Baixa visibilidade de dados em imagens: Uma captura de tela de um DataFrame com 20 colunas e 5 linhas pode ter nomes e IDs em colunas periféricas que o pesquisador não foca ao documentar o procedimento de análise.

Sem verificação automatizada nos fluxos de trabalho de submissão: Portais de submissão de revistas padrão realizam verificações de completude, verificações de formato e triagem de plágio. Nenhum realiza detecção de PII em imagens.

Implementação de Triagem para Grupos de Pesquisa

Um fluxo de trabalho prático para um grupo de pesquisa implementando triagem de PII em manuscritos:

Protocolo pré-submissão:

  1. O pesquisador completa o rascunho do manuscrito com todas as figuras
  2. Rascunho submetido à triagem interna (PI ou revisor designado)
  3. Detecção de PII em imagens é executada em todos os arquivos de imagem anexados ao manuscrito
  4. O relatório de detecção identifica: quais imagens contêm texto legível, qual texto corresponde a padrões de entidades PII
  5. O pesquisador revisa as imagens sinalizadas
  6. Para cada imagem sinalizada: substituir por captura de tela devidamente anonimizada (substituir ID do paciente 12847 por ID 00001, substituir nome real por "Paciente A")
  7. Manuscrito final submetido à revista com capturas de tela anonimizada

Opções de integração técnica:

  • Manual: exportar todas as imagens do manuscrito, executar detecção de PII em lote, revisar relatório
  • Semi-automatizado: pasta dedicada onde rascunhos de manuscritos são depositados; processamento em lote semanal em novos arquivos
  • Integrado ao fluxo de trabalho: portal de submissão institucional com etapa de triagem pré-submissão

O custo de tempo da triagem é baixo: para um manuscrito típico de 15 figuras, a detecção de PII em imagens leva menos de 2 minutos. O custo de tempo de uma retratação ou constatação de comitê de ética é medido em meses.

Caso de Uso: Requisito de Ética em Pesquisa de Universidade Europeia

Um grupo de pesquisa em ciência de dados em uma universidade europeia implementou a triagem de PII em imagens como parte de seu fluxo de trabalho de submissão de manuscritos após um quase erro: a revisão de um artigo submetido detectou nomes individuais de pacientes em uma captura de tela de DataFrame que havia sido incluída como uma ilustração de metodologia.

Implementação:

  • Todos os artigos em rascunho processados para PII em imagens antes da submissão a revistas
  • A triagem cobre todas as figuras PNG, JPG e PDF no rascunho
  • Resultados revisados pelo contato designado de privacidade de dados do grupo

Resultados ao longo de 6 meses:

  • 23 manuscritos triados antes da submissão
  • 7 manuscritos (30%) tinham pelo menos uma imagem com entidades PII detectáveis
  • Tipos de entidades encontradas: nomes de pacientes em DataFrames (4 artigos), IDs de usuários correspondendo a formatos de registro de pacientes (2 artigos), endereços de e-mail nas margens das capturas de tela (1 artigo)
  • Todos os 7 corrigidos antes da submissão
  • Zero pedidos de retratação pós-submissão ou constatações de ética durante o período

O comitê de ética em pesquisa da instituição agora usa esse fluxo de trabalho como um exemplo documentado de "salvaguardas apropriadas" nas aplicações de isenção de pesquisa do Artigo 89 do GDPR.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.