Per que Excel es el tipus de fitxer amb mes risc

Els fitxers Excel son un dels grans riscos del RGPD en la majoria de les empreses. Els historials mèdics poden contenir mes dades sensibles per fila. Pero els fulls de calcul acumulen dades personals rapidament, i els equips de compliment sovint se'ls perden.

Tres coses fan que els fitxers Excel siguin dificils de gestionar.

Volum: Un sol fitxer XLSX pot tenir 50.000 files i 100 columnes. Aixo son cinc milions de cel·les. Cap revisio manual pot comprovar-les totes.

Disseny en quadricula: El text flueix en una direccio. Excel distribueix les dades en files i columnes. Les dades personals poden amagar-se en qualsevol lloc d'aquesta quadricula.

Contingut mixt: Les bandes salarials, els codis de departament i els graus laborals es troben al mateix fitxer que els numeros de la seguretat social i les adreces de correu electronic. Esborrar-ho tot fa el fitxer inutil.

Retencio llarga: Les llistes de personal i els registres de clients es mantenen en Excel durant anys. L'Article 5(1)(e) del RGPD estableix que les dades s'han de conservar "no mes temps del necessari". Els fitxers que "podrien ser utils" sovint es conserven molt mes enlla d'aquest punt.

Per que els escaneigs de text estandard fallen en els fulls de calcul

Les eines d'analisi de text es van construir per a documents. Fallen en els fulls de calcul de diverses maneres habituals.

El problema del NSS com a numero

Excel desa els numeros de la seguretat social sense guions (123456789) com a numeros simples, no com a text. Un escaner creat per trobar ###-##-#### se'ls perdra. Una bona eina ha de saber que un numero de 9 digits en una columna anomenada "NSS" es un numero de la seguretat social.

El problema de la data com a numero

Excel emmagatzema les dates com a numeros de serie. El 6 de febrer de 2024 s'emmagatzema com a 45329. Una exportacio CSV mostrara "45329" en una columna de "Data de Naixement". Un escaner ha de convertir aquest numero en una data real abans de poder marcar el valor.

El problema del NSS parcial

Alguns sistemes mostren nomes els ultims quatre digits d'un NSS (*--1234). El numero complet es troba en una columna bloquejada. El valor parcial s'ha d'anonimitzar igualment, fins i tot si no sembla un NSS complet.

El problema de les dades personals en formules

Algunes cel·les construeixen dades personals a partir d'altres cel·les. Una cel·la amb =CONCATENATE(B2," ",C2) mostra un nom complet. Si netegeu les columnes B i C, aquell nom complet continua visible a la cel·la de la formula. Una eina que llegeix nomes els valors emmagatzemats, no els vincles de formula, deixara les dades personals al seu lloc.

El problema dels fulls multiples

Un llibre de treball gran pot tenir cinc fulls: Llista de Clients, Comandes, Tiquets de Suport, Facturacio i Analitica. Els noms dels clients apareixen en els cinc. "Joan Garcia" en un full ha de convertir-se en el mateix token --"PERSON_0047"-- en tots els altres fulls. Dos tokens diferents trenquen els vincles dels registres.

Les capaleres de columna com a senyal

La millora mes important en la deteccio de dades personals en fulls de calcul es l'analisi de la capalera de columna.

Una columna anomenada "NSS" indica a l'eina que tots els valors d'aquesta columna son numeros de la seguretat social. Aixo funciona fins i tot si els valors son parcials, amb un format estrany o emmagatzemats com a numeros.

Capalera de columna	Que indica
NSS / Seguretat Social / NIF	Tractar els numeros de 9 digits com a NSS
Correu / Email / Adreca de correu	Marcar fins i tot patrons de correu parcials
Telefon / Mobil / Cel·lular	Acceptar qualsevol format de telefon
DN / Data de Naixement / Aniversari	Convertir numeros de serie en dates
Nom / Cognoms / Nom Complet	Baixar el llindar per a la deteccio de noms
Adreca / Carrer / Ciutat / CP	Combinar camps de localitzacio propers
ID de Pacient / NHC / Numero de Registre	Aplicar patrons d'ID sanitari

El context de la columna no substitueix l'escaneig del contingut. El complementa. Una columna anomenada "NSS" amb 100 valors: l'escaneig del contingut en detecta 99 ben formatats. El context de la columna detecta el que te un aspecte estrany.

Manteniu l'estructura, elimineu els noms

L'objectiu en la majoria dels casos d'Excel del RGPD no es destruir el fitxer. Es eliminar les dades personals mantenint les parts que fan el fitxer util.

Per a un fitxer de registres de personal de 15.000 files, un responsable de compliment necessita:

Eliminar:

Noms d'empleats -> tokens PERSON_XXXX
NSS -> REDACTAT
Adreces de correu electronic -> REDACTAT
Numeros de telefon -> REDACTAT
Adreces de domicili -> REDACTAT

Conservar:

Codis de departament
Titols del lloc de treball (nomes rols generals)
Bandes salarials (categories amplies)
Puntuacions de rendiment (dades de grup)
Dates d'inici (per a estadistiques d'antiguitat)
Codis de responsable (si estan pseudonimitzats)

Una eina que coneix la diferencia entre "dades que identifiquen persones" i "dades que descriuen llocs de treball" us ofereix un fitxer que segueix funcionant per a l'analisi de Recursos Humans i que compleix les regles de minimitzacio de dades del RGPD.

Cas real: transferencia de dades de Recursos Humans en una fusio

Una empresa adquirent rep els registres de personal de l'empresa objectiu: un XLSX de 15.000 files amb 40 columnes. El fitxer ha d'anar a una empresa externa de Recursos Humans per a la planificacio de beneficis. El RGPD estableix que nomes es poden compartir les dades necessaries per a aquesta tasca.

Abans del processament: 40 columnes amb noms complets, NSS, correus electronics, adreces de domicili, contactes d'emergència i dades bancaries.

Despres del processament per context de columna:

12 columnes que identifiquen directament persones (noms, NSS, correus, telefons, adreces, dades bancaries): substituides per tokens consistents
3 columnes que identifiquen indirectament persones (ID d'empleat, codi de responsable, codi de lloc): substituides per tokens pseudonims que coincideixen dins del fitxer
25 columnes son dades agregades (banda salarial, departament, antiguitat, grau): sense canvis

Temps: 8 minuts per a 600.000 cel·les

Sortida: El mateix disseny XLSX, 40 columnes, 15 anonimitzades, 25 sense canvis

Registre d'auditoria: Registre a nivell de cel·la de cada accio amb el tipus d'entitat, la puntuacio de confianca i el senyal de columna utilitzat

L'empresa de Recursos Humans obte un conjunt de dades complet per al seu treball, sense cap nom ni ID. El registre de compliment obte la prova que nomes es van compartir les dades correctes.

Aquest repte no es exclusiu d'Excel. Cada format de fitxer falla a la seva manera. Vegeu com la fragmentacio de formats afecta la deteccio de dades personals per a una visio general entre tipus de fitxer.

Tres regles de l'Article 5 del RGPD, un proces

L'anonimitzacio estructurada de fulls de calcul compleix tres regles alhora.

Minimitzacio de dades (Art. 5(1)(c)): Nomes les columnes necessaries per a la tasca van al destinatari. Les columnes identificadores s'eliminen.

Limitacio de conservacio (Art. 5(1)(e)): El fitxer original es manté per a la retencio legal. Es fa una copia neta per compartir, amb una necessitat de retencio mes curta o nul·la.

Integritat i confidencialitat (Art. 5(1)(f)): Cap dada d'identificacio surt de la zona de control. Nomes es comparteixen copies netes.

El registre d'auditoria del proces tambe es la vostra prova de l'Article 5(2). Mostra com es va complir cada regla per a cada fitxer.

Si el vostre equip gestiona DSAR o exportacions de dades grans, la mateixa logica s'aplica a nivell d'API. Vegeu com funciona la minimitzacio de dades del RGPD en APIs en temps real.

Per a equips que treballen amb alts volums sota terminis estrets, vegeu processament per lots de DSAR del RGPD a escala per a patrons de flux de treball que tambe s'apliquen aqui.

Fonts

Articles Relacionats

GDPR i Compliment

Les eines de IIP allotjades localment fallen les auditories de compliment

spaCy 3.4.4 produeix resultats NER diferents que spaCy 3.5.1. Una empresa de serveis financers descobreix que el 3% dels documents van ser anonimitzats de manera diferent en staging vs. produccio.

GDPR i Compliment

Presidio no detecta mes de 220 entitats del RGPD

Presidio inclou uns 40 reconeixedors d'entitats per defecte centrats en identificadors dels EUA. Les organitzacions europees necessiten IBAN, Codice Fiscale i molts mes.

GDPR i Compliment

Deriva de Configuració: Un Risc Ocult del RGPD

L'analista A substitueix noms per pseudoníms. L'analista B els ratlla. La teva auditoria RGPD troba tots dos en el mateix conjunt de dades. La deriva de configuració -- on els membres de l'equip apliquen normes de manera diferent -- és un risc real de compliment.

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

Comença Prova Gratuïta Veure Funcions

Dades personals a Excel: anonimitzeu centenars de columnes

Per que Excel es el tipus de fitxer amb mes risc

Per que els escaneigs de text estandard fallen en els fulls de calcul

El problema del NSS com a numero

El problema de la data com a numero

El problema del NSS parcial

El problema de les dades personals en formules

El problema dels fulls multiples

Les capaleres de columna com a senyal

Manteniu l'estructura, elimineu els noms

Cas real: transferencia de dades de Recursos Humans en una fusio

Tres regles de l'Article 5 del RGPD, un proces

Fonts

Articles Relacionats

Les eines de IIP allotjades localment fallen les auditories de compliment

Presidio no detecta mes de 220 entitats del RGPD

Deriva de Configuració: Un Risc Ocult del RGPD

Preparat per protegir les vostres dades?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow