Por qué Excel es tu tipo de archivo más arriesgado

Los archivos Excel son uno de los mayores riesgos del RGPD en la mayoría de las empresas. Los expedientes médicos pueden contener datos más sensibles por fila. Pero las hojas de cálculo acumulan datos personales en silencio — y los equipos de cumplimiento a menudo los pasan por alto.

Tres cosas hacen que los archivos Excel sean difíciles de gestionar.

Volumen: Un solo archivo XLSX puede contener 50.000 filas y 100 columnas. Eso son cinco millones de celdas. Ninguna revisión manual puede comprobarlas todas.

Disposición en cuadrícula: El texto fluye en una sola dirección. Excel distribuye los datos en filas y columnas. Los datos personales pueden ocultarse en cualquier lugar de esa cuadrícula.

Contenido mixto: Las bandas salariales, los códigos de departamento y las calificaciones de rendimiento están en el mismo archivo que los números de la seguridad social y las direcciones de correo electrónico. Borrar todo hace que el archivo sea inútil.

Retención prolongada: Las listas de personal y las bases de clientes permanecen en Excel durante años. El RGPD artículo 5(1)(e) exige que los datos se conserven "no más tiempo del necesario". Los archivos que "podrían ser útiles" suelen persistir mucho más allá de ese límite.

Por qué los análisis de texto estándar fallan en las hojas de cálculo

Las herramientas de análisis de texto se diseñaron para documentos. Fallan con las hojas de cálculo de formas predecibles.

El problema del NIF como número

Excel guarda los números de la seguridad social sin guiones (123456789) como números simples — no como texto. Un escáner que busca el patrón ###-##-#### no los encontrará. Una buena herramienta debe saber que un número de 9 dígitos en una columna llamada "SSN" es un número de la seguridad social.

El problema de la fecha como número

Excel almacena las fechas como números de serie. El 6 de febrero de 2024 se almacena como 45329. Un exportado CSV mostrará "45329" en una columna "Fecha de nacimiento". Un escáner debe convertir ese número en una fecha antes de poder identificarlo.

El problema del NIF parcial

Algunos sistemas solo muestran los últimos cuatro dígitos de un SSN (***-**-1234). El número completo está en una columna bloqueada. El valor parcial debe anonimizarse de todas formas — aunque no parezca un SSN completo.

El problema de la fórmula con datos personales

Algunas celdas construyen datos personales a partir de otras celdas. Una celda con =CONCATENAR(B2;" ";C2) muestra un nombre completo. Si borras las columnas B y C, ese nombre sigue visible en la celda de fórmula. Las herramientas que solo leen valores almacenados — sin los enlaces de fórmula — dejan datos personales en su lugar tras la limpieza.

El problema de múltiples hojas

Un libro de trabajo grande puede tener cinco hojas: Lista de clientes, Pedidos, Tickets de soporte, Facturación y Análisis. Los nombres de los clientes aparecen en las cinco. "Juan García" en una hoja debe convertirse en el mismo token — "PERSON_0047" — en cada otra hoja. Dos tokens diferentes rompen los vínculos entre registros.

Los encabezados de columna como señal de detección

La mejora más importante en la detección de datos personales en hojas de cálculo es el análisis de encabezados de columna.

Una columna llamada "SSN" le indica a la herramienta que todos los valores de esa columna son números de la seguridad social. Esto funciona incluso si los valores son parciales, tienen un formato extraño o están guardados como números.

Encabezado de columna	Señal
SSN / Seguridad Social / NIF	Tratar números de 9 dígitos como SSN
Email / Dirección de correo	Marcar incluso patrones de email parciales
Teléfono / Móvil / Celular	Aceptar cualquier formato de teléfono
Fecha nacimiento / FDN	Convertir números de serie en fechas
Nombre / Apellido / Nombre completo	Bajar el umbral de detección de nombres
Dirección / Calle / Ciudad / CP	Combinar campos geográficos cercanos
ID paciente / N.º expediente	Aplicar patrones de ID de salud

El contexto de columna no reemplaza el análisis de contenido. Lo complementa. Una columna "SSN" con 100 valores: el análisis de contenido encuentra 99 bien formateados. El contexto de columna encuentra el valor atípico.

Conservar la estructura, eliminar los nombres

El objetivo en la mayoría de los casos de Excel con el RGPD no es destruir el archivo. Se trata de eliminar los datos personales mientras se conservan las partes que hacen útil el archivo.

Para un archivo de registros de personal con 15.000 filas, un responsable de cumplimiento necesita:

Eliminar:

Nombres de empleados → tokens PERSON_XXXX
Números de la seguridad social → REDACTED
Direcciones de correo electrónico → REDACTED
Números de teléfono → REDACTED
Domicilios → REDACTED

Conservar:

Códigos de departamento
Cargos laborales (roles generales únicamente)
Bandas salariales (categorías amplias)
Puntuaciones de rendimiento (datos de grupo)
Fechas de incorporación (para estadísticas de antigüedad)
Códigos de gerentes (si están pseudonimizados)

Una herramienta que distingue "datos que identifican personas" de "datos que describen puestos" produce un archivo que sigue siendo útil para el análisis de RR. HH. — y cumple las reglas de minimización de datos del RGPD.

Caso real: transferencia de datos de RR. HH. en una adquisición

Una empresa adquirente recibe registros de personal de la empresa objetivo: un XLSX de 15.000 filas con 40 columnas. El archivo debe ir a una consultora externa de RR. HH. para la planificación de beneficios. El RGPD permite compartir solo los datos necesarios para esa tarea.

Antes del procesamiento: 40 columnas con nombres completos, números de la seguridad social, correos electrónicos, domicilios, contactos de emergencia y datos bancarios.

Después del procesamiento con contexto de columna:

12 columnas identifican directamente a personas (nombres, SSN, correos, teléfono, direcciones, datos bancarios): reemplazadas por tokens coherentes
3 columnas identifican indirectamente a personas (ID de empleado, código de gerente, código de puesto): reemplazadas por tokens pseudónimos coherentes dentro del archivo
25 columnas son datos agregados (banda salarial, departamento, antigüedad, nivel): dejadas sin cambios

Tiempo: 8 minutos para 600.000 celdas

Resultado: Mismo formato XLSX, 40 columnas, 15 anonimizadas, 25 sin cambios

Registro de auditoría: Registro celda por celda de cada acción con tipo de entidad, puntuación de confianza y señal de columna utilizada

La consultora de RR. HH. obtiene un conjunto de datos completo para su trabajo — sin nombres ni identificadores. El expediente de cumplimiento obtiene la prueba de que solo se compartieron los datos correctos.

Este reto no es exclusivo de Excel. Cada formato de archivo falla a su manera. Ver cómo la fragmentación de formatos afecta la detección de datos personales.

Tres reglas del artículo 5 del RGPD, un solo proceso

La anonimización estructurada de hojas de cálculo cumple tres reglas al mismo tiempo.

Minimización de datos (art. 5(1)(c)): Solo las columnas necesarias para la tarea llegan al destinatario. Las columnas identificativas se eliminan.

Limitación del almacenamiento (art. 5(1)(e)): El archivo original permanece para los períodos de retención legal. Se crea una copia limpia para compartir — con requisitos de retención más cortos o nulos.

Integridad y confidencialidad (art. 5(1)(f)): Ningún dato identificativo sale de la zona de control. Solo se comparten copias limpias.

El registro de auditoría del proceso también es tu prueba según el artículo 5(2). Muestra cómo se cumplió cada regla para cada archivo.

Si tu equipo gestiona solicitudes de acceso (DSAR) o grandes exportaciones de datos, la misma lógica se aplica a nivel de API. Ver cómo funciona la minimización de datos del RGPD en APIs en tiempo real.

Para equipos con grandes volúmenes y plazos ajustados, ver procesamiento por lotes de DSAR del RGPD a escala.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

Iniciar Prueba Gratuita Ver Características

Excel y GDPR: Cómo anonimizar hojas de cálculo con...

Por qué Excel es tu tipo de archivo más arriesgado

Por qué los análisis de texto estándar fallan en las hojas de cálculo

El problema del NIF como número

El problema de la fecha como número

El problema del NIF parcial

El problema de la fórmula con datos personales

El problema de múltiples hojas

Los encabezados de columna como señal de detección

Conservar la estructura, eliminar los nombres

Caso real: transferencia de datos de RR. HH. en una adquisición

Tres reglas del artículo 5 del RGPD, un solo proceso

Fuentes

Artículos Relacionados

Por qué las herramientas de PII autoalojadas fallan...

Lo que Presidio no incluye: Los 220+ tipos de...

El costo de cumplimiento de la redacción...

¿Listo para proteger sus datos?

Excel y GDPR: Cómo anonimizar hojas de cálculo con...

Por qué Excel es tu tipo de archivo más arriesgado

Por qué los análisis de texto estándar fallan en las hojas de cálculo

El problema del NIF como número

El problema de la fecha como número

El problema del NIF parcial

El problema de la fórmula con datos personales

El problema de múltiples hojas

Los encabezados de columna como señal de detección

Conservar la estructura, eliminar los nombres

Caso real: transferencia de datos de RR. HH. en una adquisición

Tres reglas del artículo 5 del RGPD, un solo proceso

Fuentes

Artículos Relacionados

Por qué las herramientas de PII autoalojadas fallan...

Lo que Presidio no incluye: Los 220+ tipos de...

El costo de cumplimiento de la redacción...

¿Listo para proteger sus datos?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow