Per que Excel es el tipus de fitxer amb mes risc
Els fitxers Excel son un dels grans riscos del RGPD en la majoria de les empreses. Els historials mèdics poden contenir mes dades sensibles per fila. Pero els fulls de calcul acumulen dades personals rapidament, i els equips de compliment sovint se'ls perden.
Tres coses fan que els fitxers Excel siguin dificils de gestionar.
Volum: Un sol fitxer XLSX pot tenir 50.000 files i 100 columnes. Aixo son cinc milions de cel·les. Cap revisio manual pot comprovar-les totes.
Disseny en quadricula: El text flueix en una direccio. Excel distribueix les dades en files i columnes. Les dades personals poden amagar-se en qualsevol lloc d'aquesta quadricula.
Contingut mixt: Les bandes salarials, els codis de departament i els graus laborals es troben al mateix fitxer que els numeros de la seguretat social i les adreces de correu electronic. Esborrar-ho tot fa el fitxer inutil.
Retencio llarga: Les llistes de personal i els registres de clients es mantenen en Excel durant anys. L'Article 5(1)(e) del RGPD estableix que les dades s'han de conservar "no mes temps del necessari". Els fitxers que "podrien ser utils" sovint es conserven molt mes enlla d'aquest punt.
Per que els escaneigs de text estandard fallen en els fulls de calcul
Les eines d'analisi de text es van construir per a documents. Fallen en els fulls de calcul de diverses maneres habituals.
El problema del NSS com a numero
Excel desa els numeros de la seguretat social sense guions (123456789) com a numeros simples, no com a text. Un escaner creat per trobar ###-##-#### se'ls perdra. Una bona eina ha de saber que un numero de 9 digits en una columna anomenada "NSS" es un numero de la seguretat social.
El problema de la data com a numero
Excel emmagatzema les dates com a numeros de serie. El 6 de febrer de 2024 s'emmagatzema com a 45329. Una exportacio CSV mostrara "45329" en una columna de "Data de Naixement". Un escaner ha de convertir aquest numero en una data real abans de poder marcar el valor.
El problema del NSS parcial
Alguns sistemes mostren nomes els ultims quatre digits d'un NSS (*--1234). El numero complet es troba en una columna bloquejada. El valor parcial s'ha d'anonimitzar igualment, fins i tot si no sembla un NSS complet.
El problema de les dades personals en formules
Algunes cel·les construeixen dades personals a partir d'altres cel·les. Una cel·la amb =CONCATENATE(B2," ",C2) mostra un nom complet. Si netegeu les columnes B i C, aquell nom complet continua visible a la cel·la de la formula. Una eina que llegeix nomes els valors emmagatzemats, no els vincles de formula, deixara les dades personals al seu lloc.
El problema dels fulls multiples
Un llibre de treball gran pot tenir cinc fulls: Llista de Clients, Comandes, Tiquets de Suport, Facturacio i Analitica. Els noms dels clients apareixen en els cinc. "Joan Garcia" en un full ha de convertir-se en el mateix token --"PERSON_0047"-- en tots els altres fulls. Dos tokens diferents trenquen els vincles dels registres.
Les capaleres de columna com a senyal
La millora mes important en la deteccio de dades personals en fulls de calcul es l'analisi de la capalera de columna.
Una columna anomenada "NSS" indica a l'eina que tots els valors d'aquesta columna son numeros de la seguretat social. Aixo funciona fins i tot si els valors son parcials, amb un format estrany o emmagatzemats com a numeros.
| Capalera de columna | Que indica |
|---|---|
| NSS / Seguretat Social / NIF | Tractar els numeros de 9 digits com a NSS |
| Correu / Email / Adreca de correu | Marcar fins i tot patrons de correu parcials |
| Telefon / Mobil / Cel·lular | Acceptar qualsevol format de telefon |
| DN / Data de Naixement / Aniversari | Convertir numeros de serie en dates |
| Nom / Cognoms / Nom Complet | Baixar el llindar per a la deteccio de noms |
| Adreca / Carrer / Ciutat / CP | Combinar camps de localitzacio propers |
| ID de Pacient / NHC / Numero de Registre | Aplicar patrons d'ID sanitari |
El context de la columna no substitueix l'escaneig del contingut. El complementa. Una columna anomenada "NSS" amb 100 valors: l'escaneig del contingut en detecta 99 ben formatats. El context de la columna detecta el que te un aspecte estrany.
Manteniu l'estructura, elimineu els noms
L'objectiu en la majoria dels casos d'Excel del RGPD no es destruir el fitxer. Es eliminar les dades personals mantenint les parts que fan el fitxer util.
Per a un fitxer de registres de personal de 15.000 files, un responsable de compliment necessita:
Eliminar:
- Noms d'empleats -> tokens PERSON_XXXX
- NSS -> REDACTAT
- Adreces de correu electronic -> REDACTAT
- Numeros de telefon -> REDACTAT
- Adreces de domicili -> REDACTAT
Conservar:
- Codis de departament
- Titols del lloc de treball (nomes rols generals)
- Bandes salarials (categories amplies)
- Puntuacions de rendiment (dades de grup)
- Dates d'inici (per a estadistiques d'antiguitat)
- Codis de responsable (si estan pseudonimitzats)
Una eina que coneix la diferencia entre "dades que identifiquen persones" i "dades que descriuen llocs de treball" us ofereix un fitxer que segueix funcionant per a l'analisi de Recursos Humans i que compleix les regles de minimitzacio de dades del RGPD.
Cas real: transferencia de dades de Recursos Humans en una fusio
Una empresa adquirent rep els registres de personal de l'empresa objectiu: un XLSX de 15.000 files amb 40 columnes. El fitxer ha d'anar a una empresa externa de Recursos Humans per a la planificacio de beneficis. El RGPD estableix que nomes es poden compartir les dades necessaries per a aquesta tasca.
Abans del processament: 40 columnes amb noms complets, NSS, correus electronics, adreces de domicili, contactes d'emergència i dades bancaries.
Despres del processament per context de columna:
- 12 columnes que identifiquen directament persones (noms, NSS, correus, telefons, adreces, dades bancaries): substituides per tokens consistents
- 3 columnes que identifiquen indirectament persones (ID d'empleat, codi de responsable, codi de lloc): substituides per tokens pseudonims que coincideixen dins del fitxer
- 25 columnes son dades agregades (banda salarial, departament, antiguitat, grau): sense canvis
Temps: 8 minuts per a 600.000 cel·les
Sortida: El mateix disseny XLSX, 40 columnes, 15 anonimitzades, 25 sense canvis
Registre d'auditoria: Registre a nivell de cel·la de cada accio amb el tipus d'entitat, la puntuacio de confianca i el senyal de columna utilitzat
L'empresa de Recursos Humans obte un conjunt de dades complet per al seu treball, sense cap nom ni ID. El registre de compliment obte la prova que nomes es van compartir les dades correctes.
Aquest repte no es exclusiu d'Excel. Cada format de fitxer falla a la seva manera. Vegeu com la fragmentacio de formats afecta la deteccio de dades personals per a una visio general entre tipus de fitxer.
Tres regles de l'Article 5 del RGPD, un proces
L'anonimitzacio estructurada de fulls de calcul compleix tres regles alhora.
Minimitzacio de dades (Art. 5(1)(c)): Nomes les columnes necessaries per a la tasca van al destinatari. Les columnes identificadores s'eliminen.
Limitacio de conservacio (Art. 5(1)(e)): El fitxer original es manté per a la retencio legal. Es fa una copia neta per compartir, amb una necessitat de retencio mes curta o nul·la.
Integritat i confidencialitat (Art. 5(1)(f)): Cap dada d'identificacio surt de la zona de control. Nomes es comparteixen copies netes.
El registre d'auditoria del proces tambe es la vostra prova de l'Article 5(2). Mostra com es va complir cada regla per a cada fitxer.
Si el vostre equip gestiona DSAR o exportacions de dades grans, la mateixa logica s'aplica a nivell d'API. Vegeu com funciona la minimitzacio de dades del RGPD en APIs en temps real.
Per a equips que treballen amb alts volums sota terminis estrets, vegeu processament per lots de DSAR del RGPD a escala per a patrons de flux de treball que tambe s'apliquen aqui.