By · Last updated 2026-06-05

Tornar al BlogGDPR i Compliment

Dades personals a Excel: anonimitzeu centenars de columnes

Els fitxers Excel son un dels tipus de documents mes rics en dades personals en les operacions empresarials. Aqui s'explica per que l'analisi de text estandard falla en els fulls de calcul i que pot fer l'analisi del context de la columna.

June 5, 20268 min llegit
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Per que Excel es el tipus de fitxer amb mes risc

Els fitxers Excel son un dels grans riscos del RGPD en la majoria de les empreses. Els historials mèdics poden contenir mes dades sensibles per fila. Pero els fulls de calcul acumulen dades personals rapidament, i els equips de compliment sovint se'ls perden.

Tres coses fan que els fitxers Excel siguin dificils de gestionar.

Volum: Un sol fitxer XLSX pot tenir 50.000 files i 100 columnes. Aixo son cinc milions de cel·les. Cap revisio manual pot comprovar-les totes.

Disseny en quadricula: El text flueix en una direccio. Excel distribueix les dades en files i columnes. Les dades personals poden amagar-se en qualsevol lloc d'aquesta quadricula.

Contingut mixt: Les bandes salarials, els codis de departament i els graus laborals es troben al mateix fitxer que els numeros de la seguretat social i les adreces de correu electronic. Esborrar-ho tot fa el fitxer inutil.

Retencio llarga: Les llistes de personal i els registres de clients es mantenen en Excel durant anys. L'Article 5(1)(e) del RGPD estableix que les dades s'han de conservar "no mes temps del necessari". Els fitxers que "podrien ser utils" sovint es conserven molt mes enlla d'aquest punt.

Per que els escaneigs de text estandard fallen en els fulls de calcul

Les eines d'analisi de text es van construir per a documents. Fallen en els fulls de calcul de diverses maneres habituals.

El problema del NSS com a numero

Excel desa els numeros de la seguretat social sense guions (123456789) com a numeros simples, no com a text. Un escaner creat per trobar ###-##-#### se'ls perdra. Una bona eina ha de saber que un numero de 9 digits en una columna anomenada "NSS" es un numero de la seguretat social.

El problema de la data com a numero

Excel emmagatzema les dates com a numeros de serie. El 6 de febrer de 2024 s'emmagatzema com a 45329. Una exportacio CSV mostrara "45329" en una columna de "Data de Naixement". Un escaner ha de convertir aquest numero en una data real abans de poder marcar el valor.

El problema del NSS parcial

Alguns sistemes mostren nomes els ultims quatre digits d'un NSS (*--1234). El numero complet es troba en una columna bloquejada. El valor parcial s'ha d'anonimitzar igualment, fins i tot si no sembla un NSS complet.

El problema de les dades personals en formules

Algunes cel·les construeixen dades personals a partir d'altres cel·les. Una cel·la amb =CONCATENATE(B2," ",C2) mostra un nom complet. Si netegeu les columnes B i C, aquell nom complet continua visible a la cel·la de la formula. Una eina que llegeix nomes els valors emmagatzemats, no els vincles de formula, deixara les dades personals al seu lloc.

El problema dels fulls multiples

Un llibre de treball gran pot tenir cinc fulls: Llista de Clients, Comandes, Tiquets de Suport, Facturacio i Analitica. Els noms dels clients apareixen en els cinc. "Joan Garcia" en un full ha de convertir-se en el mateix token --"PERSON_0047"-- en tots els altres fulls. Dos tokens diferents trenquen els vincles dels registres.

Les capaleres de columna com a senyal

La millora mes important en la deteccio de dades personals en fulls de calcul es l'analisi de la capalera de columna.

Una columna anomenada "NSS" indica a l'eina que tots els valors d'aquesta columna son numeros de la seguretat social. Aixo funciona fins i tot si els valors son parcials, amb un format estrany o emmagatzemats com a numeros.

Capalera de columnaQue indica
NSS / Seguretat Social / NIFTractar els numeros de 9 digits com a NSS
Correu / Email / Adreca de correuMarcar fins i tot patrons de correu parcials
Telefon / Mobil / Cel·lularAcceptar qualsevol format de telefon
DN / Data de Naixement / AniversariConvertir numeros de serie en dates
Nom / Cognoms / Nom CompletBaixar el llindar per a la deteccio de noms
Adreca / Carrer / Ciutat / CPCombinar camps de localitzacio propers
ID de Pacient / NHC / Numero de RegistreAplicar patrons d'ID sanitari

El context de la columna no substitueix l'escaneig del contingut. El complementa. Una columna anomenada "NSS" amb 100 valors: l'escaneig del contingut en detecta 99 ben formatats. El context de la columna detecta el que te un aspecte estrany.

Manteniu l'estructura, elimineu els noms

L'objectiu en la majoria dels casos d'Excel del RGPD no es destruir el fitxer. Es eliminar les dades personals mantenint les parts que fan el fitxer util.

Per a un fitxer de registres de personal de 15.000 files, un responsable de compliment necessita:

Eliminar:

  • Noms d'empleats -> tokens PERSON_XXXX
  • NSS -> REDACTAT
  • Adreces de correu electronic -> REDACTAT
  • Numeros de telefon -> REDACTAT
  • Adreces de domicili -> REDACTAT

Conservar:

  • Codis de departament
  • Titols del lloc de treball (nomes rols generals)
  • Bandes salarials (categories amplies)
  • Puntuacions de rendiment (dades de grup)
  • Dates d'inici (per a estadistiques d'antiguitat)
  • Codis de responsable (si estan pseudonimitzats)

Una eina que coneix la diferencia entre "dades que identifiquen persones" i "dades que descriuen llocs de treball" us ofereix un fitxer que segueix funcionant per a l'analisi de Recursos Humans i que compleix les regles de minimitzacio de dades del RGPD.

Cas real: transferencia de dades de Recursos Humans en una fusio

Una empresa adquirent rep els registres de personal de l'empresa objectiu: un XLSX de 15.000 files amb 40 columnes. El fitxer ha d'anar a una empresa externa de Recursos Humans per a la planificacio de beneficis. El RGPD estableix que nomes es poden compartir les dades necessaries per a aquesta tasca.

Abans del processament: 40 columnes amb noms complets, NSS, correus electronics, adreces de domicili, contactes d'emergència i dades bancaries.

Despres del processament per context de columna:

  • 12 columnes que identifiquen directament persones (noms, NSS, correus, telefons, adreces, dades bancaries): substituides per tokens consistents
  • 3 columnes que identifiquen indirectament persones (ID d'empleat, codi de responsable, codi de lloc): substituides per tokens pseudonims que coincideixen dins del fitxer
  • 25 columnes son dades agregades (banda salarial, departament, antiguitat, grau): sense canvis

Temps: 8 minuts per a 600.000 cel·les

Sortida: El mateix disseny XLSX, 40 columnes, 15 anonimitzades, 25 sense canvis

Registre d'auditoria: Registre a nivell de cel·la de cada accio amb el tipus d'entitat, la puntuacio de confianca i el senyal de columna utilitzat

L'empresa de Recursos Humans obte un conjunt de dades complet per al seu treball, sense cap nom ni ID. El registre de compliment obte la prova que nomes es van compartir les dades correctes.

Aquest repte no es exclusiu d'Excel. Cada format de fitxer falla a la seva manera. Vegeu com la fragmentacio de formats afecta la deteccio de dades personals per a una visio general entre tipus de fitxer.

Tres regles de l'Article 5 del RGPD, un proces

L'anonimitzacio estructurada de fulls de calcul compleix tres regles alhora.

Minimitzacio de dades (Art. 5(1)(c)): Nomes les columnes necessaries per a la tasca van al destinatari. Les columnes identificadores s'eliminen.

Limitacio de conservacio (Art. 5(1)(e)): El fitxer original es manté per a la retencio legal. Es fa una copia neta per compartir, amb una necessitat de retencio mes curta o nul·la.

Integritat i confidencialitat (Art. 5(1)(f)): Cap dada d'identificacio surt de la zona de control. Nomes es comparteixen copies netes.

El registre d'auditoria del proces tambe es la vostra prova de l'Article 5(2). Mostra com es va complir cada regla per a cada fitxer.

Si el vostre equip gestiona DSAR o exportacions de dades grans, la mateixa logica s'aplica a nivell d'API. Vegeu com funciona la minimitzacio de dades del RGPD en APIs en temps real.

Per a equips que treballen amb alts volums sota terminis estrets, vegeu processament per lots de DSAR del RGPD a escala per a patrons de flux de treball que tambe s'apliquen aqui.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.