Volver al BlogGDPR y Cumplimiento

Publicación de Investigación PII: Por Qué Sus Capturas de Pantalla de Análisis de Datos Podrían Estar Violando el GDPR Sin Que Usted Lo Sepa

Los artículos académicos incluyen regularmente pandas DataFrames y resultados de R que muestran registros reales de pacientes como ejemplos de metodología. Aquí está el porqué de esta violación del GDPR y cómo revisar los manuscritos antes de la presentación.

March 7, 20267 min de lectura
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

El Problema de las Capturas de Pantalla de Metodología

Las publicaciones académicas y de investigación han desarrollado un patrón de documentación que crea un riesgo de GDPR poco apreciado: capturas de pantalla de entornos de análisis de datos que muestran datos reales como parte de la demostración de la metodología.

Los escenarios son comunes:

  • Un artículo de aprendizaje automático incluye una captura de pantalla de un pandas DataFrame que muestra las primeras 10 filas del conjunto de datos de entrenamiento, que contiene registros reales de pacientes de la fuente de datos.
  • Un artículo de análisis de datos clínicos muestra resultados de R con valores individuales de pacientes en una tabla resumen, con IDs de pacientes parcialmente visibles.
  • Un artículo de ciencias sociales computacionales incluye tablas de salida de SPSS que muestran valores individuales de encuestados como parte de la explicación del procedimiento de análisis.
  • Un tutorial de ingeniería de datos publicado en una revista de investigación incluye capturas de pantalla de Jupyter notebook con registros de usuarios reales utilizados como "datos de muestra" para la ilustración.

En cada caso, el autor no tenía la intención de publicar datos personales. La captura de pantalla se incluyó para documentar la metodología. Los datos personales en la captura de pantalla eran incidentales, ahí para hacer el ejemplo concreto.

Pero "incidental" no lo hace conforme. El Artículo 4(1) del GDPR define los datos personales como cualquier información relacionada con una persona natural identificada o identificable. Un registro de paciente en un artículo publicado, incluso como captura de pantalla, es datos personales. Publicarlo sin el consentimiento del paciente o otra base legal bajo el Artículo 6 es una violación del GDPR.

Las instituciones de investigación enfrentan cada vez más la aplicación del GDPR por fallas en la publicación de datos. Desarrollos clave:

Solicitudes de retractación de revistas: El derecho a la eliminación del GDPR (Artículo 17) se extiende a los datos publicados. Si un sujeto de datos descubre sus datos personales en un artículo publicado, puede solicitar la eliminación, lo que para un artículo de revista típicamente significa una retractación o un aviso de corrección. La retractación de una revista es una consecuencia profesional significativa.

Hallazgos de comités de ética de investigación: Los comités de ética de investigación que revisan investigaciones publicadas para el cumplimiento del GDPR han comenzado a emitir hallazgos para artículos que incluyen datos a nivel individual en capturas de pantalla sin las salvaguardias adecuadas. Estos hallazgos afectan la posición de los investigadores con los comités de ética para futuras investigaciones.

Violaciones de Acuerdos de Acceso a Datos: La mayoría de los conjuntos de datos de investigación se comparten bajo Acuerdos de Acceso a Datos que especifican cómo se pueden usar los datos y qué se puede publicar. Incluir datos a nivel individual en capturas de pantalla de publicaciones, incluso como miniaturas, puede violar el DAA, con consecuencias que incluyen la pérdida de privilegios de acceso a datos.

Limitaciones de las exenciones de investigación del Artículo 89 del GDPR: El Artículo 89 del GDPR permite el procesamiento de datos personales para investigación científica con obligaciones reducidas, pero solo donde se implementen "salvaguardias adecuadas". Publicar datos a nivel individual en capturas de pantalla de metodología sin anonimización no es una salvaguardia adecuada; es una divulgación.

La Magnitud del Problema

La incidencia no es rara. Una revisión sistemática de artículos de ciencia de datos publicados en revistas de alto impacto entre 2022-2024 probablemente encontraría una proporción significativa que contiene imágenes con datos a nivel individual visibles.

Los factores contribuyentes:

Normas de reproducibilidad: La publicación científica moderna requiere cada vez más que los métodos se documenten con suficiente detalle para reproducir resultados. Las capturas de pantalla de entornos de análisis se consideran como cumplimiento de esta norma.

Velocidad de publicación: Bajo presión de plazos, los investigadores generan capturas de pantalla rápidamente sin revisar cada imagen por contenido de datos.

Baja visibilidad de datos en imágenes: Una captura de pantalla de un DataFrame con 20 columnas y 5 filas puede tener nombres e IDs en columnas periféricas que el investigador no se enfoca al documentar el procedimiento de análisis.

Sin verificación automatizada en flujos de trabajo de presentación: Los portales de presentación de revistas estándar realizan verificaciones de completitud, verificaciones de formato y detección de plagio. Ninguno realiza detección de PII en imágenes.

Implementación de Filtrado para Grupos de Investigación

Un flujo de trabajo práctico para un grupo de investigación que implementa el filtrado de PII en manuscritos:

Protocolo de pre-presentación:

  1. El investigador completa el borrador del manuscrito con todas las figuras.
  2. Borrador enviado a revisión interna (PI o revisor designado).
  3. Detección de PII en imágenes se ejecuta en todos los archivos de imagen adjuntos al manuscrito.
  4. El informe de detección identifica: qué imágenes contienen texto legible, qué texto coincide con patrones de entidades PII.
  5. El investigador revisa las imágenes marcadas.
  6. Para cada imagen marcada: reemplazar con captura de pantalla debidamente anonimizada (sustituir ID de paciente 12847 con ID 00001, reemplazar nombre real con "Paciente A").
  7. Manuscrito final enviado a la revista con capturas de pantalla anonimizadas.

Opciones de integración técnica:

  • Manual: exportar todas las imágenes del manuscrito, ejecutar detección de PII en imágenes por lotes, revisar informe.
  • Semi-automatizado: carpeta dedicada donde se depositan los borradores de manuscritos; procesamiento por lotes semanal en nuevos archivos.
  • Integrado en flujo de trabajo: portal de presentación institucional con paso de filtrado previo a la presentación.

El costo de tiempo del filtrado es bajo: para un manuscrito típico de 15 figuras, la detección de PII en imágenes toma menos de 2 minutos. El costo de tiempo de una retractación o hallazgo de un comité de ética se mide en meses.

Caso de Uso: Requisito de Ética de Investigación de Universidades Europeas

Un grupo de investigación de ciencia de datos en una universidad europea implementó el filtrado de PII en imágenes como parte de su flujo de trabajo de presentación de manuscritos tras un casi accidente: la revisión de un artículo presentado detectó nombres individuales de pacientes en una captura de pantalla de DataFrame que se había incluido como ilustración de metodología.

Implementación:

  • Todos los borradores de artículos procesados para PII en imágenes antes de la presentación a revistas.
  • El filtrado cubre todas las figuras en PNG, JPG y PDF en el borrador.
  • Resultados revisados por el contacto designado de privacidad de datos del grupo.

Resultados durante 6 meses:

  • 23 manuscritos filtrados antes de la presentación.
  • 7 manuscritos (30%) tenían al menos una imagen con entidades PII detectables.
  • Tipos de entidades encontradas: nombres de pacientes en DataFrames (4 artículos), IDs de usuarios que coinciden con formatos de registro de pacientes (2 artículos), direcciones de correo electrónico en márgenes de capturas de pantalla (1 artículo).
  • Todos los 7 corregidos antes de la presentación.
  • Cero solicitudes de retractación post-presentación o hallazgos de ética durante el período.

El comité de ética de investigación de la institución ahora utiliza este flujo de trabajo como un ejemplo documentado de "salvaguardias adecuadas" en las aplicaciones de exención de investigación del Artículo 89 del GDPR.

Fuentes:

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.