By · Last updated 2026-06-05

Volver al BlogGDPR y Cumplimiento

Publicación de Investigación PII: Por Qué Sus...

Los artículos académicos incluyen regularmente pandas DataFrames y resultados de R que muestran registros reales de pacientes como ejemplos de...

June 5, 20267 min de lectura
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Actualizado para 2026 — La aplicación del RGPD contra grupos de investigación ha aumentado. Este riesgo sigue siendo común en los trabajos publicados.

El problema de las capturas de pantalla de metodología

Muchos artículos académicos incluyen capturas de pantalla de herramientas de análisis. El objetivo es mostrar el método. Pero esas capturas pueden revelar datos personales reales. La mayoría de los investigadores no notan este riesgo.

Aquí hay cuatro casos comunes:

  • Un artículo de machine learning muestra un DataFrame de pandas. Las primeras 10 filas tienen nombres e IDs reales de pacientes.
  • Un estudio clínico muestra resultados de R. Los valores de los pacientes están en pantalla. Los IDs de pacientes aparecen en el margen.
  • Un artículo de ciencias sociales muestra tablas de SPSS. Las respuestas de personas reales son visibles.
  • Un tutorial de revista muestra un Jupyter Notebook. Registros reales de usuarios sirven como filas de muestra.

En cada caso, el autor quería mostrar el método. Los registros personales no eran el foco. Solo estaban ahí para hacer el ejemplo más concreto.

Pero "no ser el foco" no significa ser seguro. El artículo 4(1) del RGPD dice que la información personal incluye cualquier dato sobre una persona identificada o identificable. Un registro de paciente en un artículo publicado es información personal. No importa si aparece en una captura de pantalla. Publicarlo sin consentimiento ni base legal según el artículo 6 viola el RGPD.

Consulte la descripción general de la conformidad con el RGPD para más información sobre las obligaciones de publicación.

Los grupos de investigación ahora enfrentan más aplicación del RGPD. Los fallos en las publicaciones son un desencadenante frecuente. Cuatro riesgos destacan.

Retractación de la revista. El artículo 17 da a las personas el derecho al olvido. Esto también aplica a la información publicada. Si una persona encuentra sus datos en un artículo, puede pedir su eliminación. Para una revista, eso suele significar retractación o aviso de corrección. Una retractación daña la carrera de un investigador.

Dictámenes del comité de ética. Los comités de ética revisan los trabajos publicados. Comprueban el cumplimiento del RGPD. Han comenzado a señalar artículos que muestran registros personales en capturas de pantalla sin salvaguardas. Estos señalamientos afectan el trabajo futuro del investigador.

Violaciones de los acuerdos de acceso a datos. Los conjuntos de datos de investigación vienen con acuerdos de acceso a datos. Estas reglas establecen qué puede publicarse. Una captura de pantalla con registros personales puede incumplir el acuerdo. El resultado suele ser la pérdida del acceso a los datos.

Límites del artículo 89. El artículo 89 permite el uso de información personal para la ciencia. Flexibiliza algunas obligaciones. Pero solo donde existen salvaguardas apropiadas. Mostrar registros personales en una captura de pantalla sin seudonimización no es una salvaguarda. Es una infracción.

Consulte nuestra página de protección y salvaguardas para el análisis completo.

¿Con qué frecuencia ocurre esto?

Este problema no es raro. Afecta a trabajos publicados en muchos campos.

Algunos factores lo impulsan.

Normas de reproducibilidad. Las revistas quieren detalles del método. Los investigadores usan capturas de pantalla para cumplir con este requisito. No siempre comprueban qué es visible en cada imagen.

Plazos ajustados. La presión del tiempo lleva a capturas de pantalla rápidas. No hay tiempo para revisar cada imagen en busca de registros expuestos.

Baja visibilidad en las imágenes. Un DataFrame puede tener 20 columnas. Los nombres e IDs pueden estar en una columna a la derecha. El investigador mira la columna de análisis, no la columna de IDs.

Sin verificación en la presentación. Los portales de revistas hacen comprobaciones de formato y detección de plagio. Ninguno verifica las imágenes en busca de entidades personales. Nada señala el problema antes de la publicación.

Flujo de trabajo de verificación para grupos de investigación

Un proceso de verificación previo a la presentación puede detener estos problemas. Tiene siete pasos.

  1. El investigador completa el borrador del manuscrito con todas las figuras.
  2. El borrador va a un revisor interno: el IP o un contacto de privacidad.
  3. La detección de datos personales en imágenes se ejecuta en todos los archivos de imagen del manuscrito.
  4. El informe señala las imágenes con texto legible que coincide con patrones de entidades personales.
  5. El investigador revisa las imágenes señaladas.
  6. Para cada imagen señalada: reemplazarla con una captura limpia. Cambiar el ID de paciente 12847 por ID 00001. Reemplazar los nombres reales con "Paciente A."
  7. El manuscrito final va a la revista con imágenes limpias.

Opciones técnicas:

  • Manual: Exportar las imágenes del manuscrito. Ejecutar la detección de datos por lotes. Revisar el informe.
  • Semiautomático: Usar una carpeta compartida para los borradores. Ejecutar el procesamiento por lotes cada semana con los archivos nuevos.
  • Integrado al flujo de trabajo: Añadir un paso de verificación al portal de presentación.

La verificación es rápida. Para un manuscrito de 15 figuras, la detección de datos personales en imágenes tarda menos de dos minutos. Una retractación tarda meses.

Visite las preguntas frecuentes o el glosario para más información sobre las funciones de detección.

Caso de estudio: universidad europea

Un grupo de investigación añadió la verificación de datos personales en imágenes a su flujo de trabajo de manuscritos. Un casi-incidente desencadenó el cambio. Un artículo en revisión tenía nombres de pacientes en una captura de pantalla de DataFrame.

Qué hicieron:

  • Todos los borradores de artículos fueron procesados para detectar datos personales en imágenes antes de su presentación.
  • La verificación cubría todas las figuras PNG, JPG y PDF en cada borrador.
  • Un contacto de privacidad revisaba los resultados.

Resultados durante seis meses:

  • 23 manuscritos verificados.
  • 7 manuscritos (30 %) tenían al menos una imagen con entidades personales.
  • Tipos encontrados: nombres de pacientes en DataFrames (4 artículos).
  • IDs de usuarios con formatos de registro de pacientes (2 artículos).
  • Direcciones de correo electrónico en los márgenes de capturas de pantalla (1 artículo).
  • Los 7 corregidos antes de la presentación.
  • Cero solicitudes de retractación o dictámenes del comité de ética tras la presentación.

El comité de ética ahora cita este flujo de trabajo como ejemplo modelo de "salvaguarda apropiada" según el artículo 89. Apoya las futuras solicitudes de exención de investigación del grupo.

Lea la declaración del fundador para conocer por qué anonym.legal fue creado para este tipo de problema.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.