Por qué Excel es tu tipo de archivo más arriesgado
Los archivos Excel son uno de los mayores riesgos del RGPD en la mayoría de las empresas. Los expedientes médicos pueden contener datos más sensibles por fila. Pero las hojas de cálculo acumulan datos personales en silencio — y los equipos de cumplimiento a menudo los pasan por alto.
Tres cosas hacen que los archivos Excel sean difíciles de gestionar.
Volumen: Un solo archivo XLSX puede contener 50.000 filas y 100 columnas. Eso son cinco millones de celdas. Ninguna revisión manual puede comprobarlas todas.
Disposición en cuadrícula: El texto fluye en una sola dirección. Excel distribuye los datos en filas y columnas. Los datos personales pueden ocultarse en cualquier lugar de esa cuadrícula.
Contenido mixto: Las bandas salariales, los códigos de departamento y las calificaciones de rendimiento están en el mismo archivo que los números de la seguridad social y las direcciones de correo electrónico. Borrar todo hace que el archivo sea inútil.
Retención prolongada: Las listas de personal y las bases de clientes permanecen en Excel durante años. El RGPD artículo 5(1)(e) exige que los datos se conserven "no más tiempo del necesario". Los archivos que "podrían ser útiles" suelen persistir mucho más allá de ese límite.
Por qué los análisis de texto estándar fallan en las hojas de cálculo
Las herramientas de análisis de texto se diseñaron para documentos. Fallan con las hojas de cálculo de formas predecibles.
El problema del NIF como número
Excel guarda los números de la seguridad social sin guiones (123456789) como números simples — no como texto. Un escáner que busca el patrón ###-##-#### no los encontrará. Una buena herramienta debe saber que un número de 9 dígitos en una columna llamada "SSN" es un número de la seguridad social.
El problema de la fecha como número
Excel almacena las fechas como números de serie. El 6 de febrero de 2024 se almacena como 45329. Un exportado CSV mostrará "45329" en una columna "Fecha de nacimiento". Un escáner debe convertir ese número en una fecha antes de poder identificarlo.
El problema del NIF parcial
Algunos sistemas solo muestran los últimos cuatro dígitos de un SSN (***-**-1234). El número completo está en una columna bloqueada. El valor parcial debe anonimizarse de todas formas — aunque no parezca un SSN completo.
El problema de la fórmula con datos personales
Algunas celdas construyen datos personales a partir de otras celdas. Una celda con =CONCATENAR(B2;" ";C2) muestra un nombre completo. Si borras las columnas B y C, ese nombre sigue visible en la celda de fórmula. Las herramientas que solo leen valores almacenados — sin los enlaces de fórmula — dejan datos personales en su lugar tras la limpieza.
El problema de múltiples hojas
Un libro de trabajo grande puede tener cinco hojas: Lista de clientes, Pedidos, Tickets de soporte, Facturación y Análisis. Los nombres de los clientes aparecen en las cinco. "Juan García" en una hoja debe convertirse en el mismo token — "PERSON_0047" — en cada otra hoja. Dos tokens diferentes rompen los vínculos entre registros.
Los encabezados de columna como señal de detección
La mejora más importante en la detección de datos personales en hojas de cálculo es el análisis de encabezados de columna.
Una columna llamada "SSN" le indica a la herramienta que todos los valores de esa columna son números de la seguridad social. Esto funciona incluso si los valores son parciales, tienen un formato extraño o están guardados como números.
| Encabezado de columna | Señal |
|---|---|
| SSN / Seguridad Social / NIF | Tratar números de 9 dígitos como SSN |
| Email / Dirección de correo | Marcar incluso patrones de email parciales |
| Teléfono / Móvil / Celular | Aceptar cualquier formato de teléfono |
| Fecha nacimiento / FDN | Convertir números de serie en fechas |
| Nombre / Apellido / Nombre completo | Bajar el umbral de detección de nombres |
| Dirección / Calle / Ciudad / CP | Combinar campos geográficos cercanos |
| ID paciente / N.º expediente | Aplicar patrones de ID de salud |
El contexto de columna no reemplaza el análisis de contenido. Lo complementa. Una columna "SSN" con 100 valores: el análisis de contenido encuentra 99 bien formateados. El contexto de columna encuentra el valor atípico.
Conservar la estructura, eliminar los nombres
El objetivo en la mayoría de los casos de Excel con el RGPD no es destruir el archivo. Se trata de eliminar los datos personales mientras se conservan las partes que hacen útil el archivo.
Para un archivo de registros de personal con 15.000 filas, un responsable de cumplimiento necesita:
Eliminar:
- Nombres de empleados → tokens PERSON_XXXX
- Números de la seguridad social → REDACTED
- Direcciones de correo electrónico → REDACTED
- Números de teléfono → REDACTED
- Domicilios → REDACTED
Conservar:
- Códigos de departamento
- Cargos laborales (roles generales únicamente)
- Bandas salariales (categorías amplias)
- Puntuaciones de rendimiento (datos de grupo)
- Fechas de incorporación (para estadísticas de antigüedad)
- Códigos de gerentes (si están pseudonimizados)
Una herramienta que distingue "datos que identifican personas" de "datos que describen puestos" produce un archivo que sigue siendo útil para el análisis de RR. HH. — y cumple las reglas de minimización de datos del RGPD.
Caso real: transferencia de datos de RR. HH. en una adquisición
Una empresa adquirente recibe registros de personal de la empresa objetivo: un XLSX de 15.000 filas con 40 columnas. El archivo debe ir a una consultora externa de RR. HH. para la planificación de beneficios. El RGPD permite compartir solo los datos necesarios para esa tarea.
Antes del procesamiento: 40 columnas con nombres completos, números de la seguridad social, correos electrónicos, domicilios, contactos de emergencia y datos bancarios.
Después del procesamiento con contexto de columna:
- 12 columnas identifican directamente a personas (nombres, SSN, correos, teléfono, direcciones, datos bancarios): reemplazadas por tokens coherentes
- 3 columnas identifican indirectamente a personas (ID de empleado, código de gerente, código de puesto): reemplazadas por tokens pseudónimos coherentes dentro del archivo
- 25 columnas son datos agregados (banda salarial, departamento, antigüedad, nivel): dejadas sin cambios
Tiempo: 8 minutos para 600.000 celdas
Resultado: Mismo formato XLSX, 40 columnas, 15 anonimizadas, 25 sin cambios
Registro de auditoría: Registro celda por celda de cada acción con tipo de entidad, puntuación de confianza y señal de columna utilizada
La consultora de RR. HH. obtiene un conjunto de datos completo para su trabajo — sin nombres ni identificadores. El expediente de cumplimiento obtiene la prueba de que solo se compartieron los datos correctos.
Este reto no es exclusivo de Excel. Cada formato de archivo falla a su manera. Ver cómo la fragmentación de formatos afecta la detección de datos personales.
Tres reglas del artículo 5 del RGPD, un solo proceso
La anonimización estructurada de hojas de cálculo cumple tres reglas al mismo tiempo.
Minimización de datos (art. 5(1)(c)): Solo las columnas necesarias para la tarea llegan al destinatario. Las columnas identificativas se eliminan.
Limitación del almacenamiento (art. 5(1)(e)): El archivo original permanece para los períodos de retención legal. Se crea una copia limpia para compartir — con requisitos de retención más cortos o nulos.
Integridad y confidencialidad (art. 5(1)(f)): Ningún dato identificativo sale de la zona de control. Solo se comparten copias limpias.
El registro de auditoría del proceso también es tu prueba según el artículo 5(2). Muestra cómo se cumplió cada regla para cada archivo.
Si tu equipo gestiona solicitudes de acceso (DSAR) o grandes exportaciones de datos, la misma lógica se aplica a nivel de API. Ver cómo funciona la minimización de datos del RGPD en APIs en tiempo real.
Para equipos con grandes volúmenes y plazos ajustados, ver procesamiento por lotes de DSAR del RGPD a escala.