Miksi Excel on korkeariskisin tiedostotyyppisi

Excel-tiedostot ovat yksi suurimmista GDPR-riskeistä useimmissa yrityksissä. Lääketieteellisissä tietueissa saattaa olla enemmän arkaluonteista dataa riviä kohden. Mutta taulukkolaskentatiedostot kerryttävät henkilötietoja nopeasti — ja vaatimustenmukaisuustiimit jättävät ne usein huomaamatta.

Kolme asiaa tekee Excel-tiedostoista vaikea hallita.

Volyymi: Yksi XLSX-tiedosto voi sisältää 50 000 riviä ja 100 saraketta. Se on viisi miljoonaa solua. Yksikään manuaalinen tarkistus ei voi tarkistaa niitä kaikkia.

Ruutukko-asettelu: Teksti virtaa yhteen suuntaan. Excel levittää datan riveille ja sarakkeille. Henkilötiedot voivat piiloutua mihin tahansa kohtaan tässä ruudukossa.

Sekainen sisältö: Palkkaluokat, osastokoodit ja työnimikkeet ovat samassa tiedostossa henkilötunnusten ja sähköpostiosoitteiden kanssa. Kaiken poistaminen tekee tiedostosta hyödyttömän.

Pitkä säilytysaika: Henkilöstölistat ja asiakastietueet jäävät Exceliin vuosiksi. GDPR:n artikla 5(1)(e) sanoo, että dataa tulee säilyttää "ei pidempään kuin on tarpeen." Tiedostot, jotka "saattavat olla hyödyllisiä", pysyvät usein kauan tämän rajan yli.

Miksi tavalliset tekstiskannaukset epäonnistuvat taulukkolaskentatiedostoissa

Tekstinkäsittelytyökalut on rakennettu asiakirjoja varten. Ne hajoavat taulukkolaskentatiedostoissa muutamilla yleisillä tavoilla.

Henkilötunnus-numerona-ongelma

Excel tallentaa henkilötunnukset ilman väliviivoja (123456789) tavallisina numeroina — ei tekstinä. Skanneri, joka etsii ###-##-####-kaavaa, ei löydä niitä. Hyvän työkalun on tiedettävä, että 9-numeroinen luku "SSN"-nimisessä sarakkeessa on henkilötunnus.

Päivämäärä-numerona-ongelma

Excel tallentaa päivämäärät sarjanumeroina. Helmikuu 6, 2024 on tallennettu numerona 45329. CSV-vienti näyttää "45329" "Syntymäaika"-sarakkeessa. Skannerin on muunnettava tämä luku todelliseksi päivämääräksi ennen kuin se voi merkitä arvon.

Osittainen-henkilötunnus-ongelma

Jotkin järjestelmät näyttävät vain henkilötunnuksen neljä viimeistä numeroa (*--1234). Koko numero on lukitussa sarakkeessa. Osittainen arvo on silti anonymisoitava — vaikka se ei näytä täydeltä henkilötunnukselta.

Kaava-henkilötieto-ongelma

Joissakin soluissa on henkilötieto rakennettu muista soluista. Solu, jossa on =CONCATENATE(B2," ",C2), näyttää koko nimen. Jos tyhjennät sarakkeet B ja C, tämä koko nimi on edelleen näkyvissä kaavan solussa. Työkalu, joka lukee vain tallennettuja arvoja — ei kaavalinkkejä — jättää henkilötiedot paikoilleen.

Monilehti-ongelma

Suuressa työkirjassa voi olla viisi välilehteä: Asiakasluettelo, Tilaukset, Tukipyynnöt, Laskutus ja Analytiikka. Asiakkaiden nimet esiintyvät kaikilla viidellä. "Matti Virtanen" yhdessä välilehdessä on muutettava samaksi tunnisteeksi — "PERSON_0047" — kaikissa muissa välilehdissä. Kaksi eri tunnistetta rikkoo tietueiden väliset linkit.

Sarakeotsikoiden käyttö signaalina

Paras parannus taulukkolaskentatiedostojen henkilötietojen tunnistuksessa on sarakeotsikoiden analyysi.

"SSN"-niminen sarake kertoo työkalulle, että kaikki kyseisen sarakkeen arvot ovat henkilötunnuksia. Tämä toimii, vaikka arvot ovat osittaisia, erikoisesti muotoiltuja tai tallennettu numeroina.

Sarakeotsikoiden	Mitä se tarkoittaa
SSN / Henkilötunnus / Verotunnus	Käsittele 9-numeroiset luvut henkilötunnuksina
Email / Sähköposti / E-mail Address	Merkitse jopa osittaiset sähköpostikaavat
Phone / Puhelin / Mobile / Cell	Hyväksy mikä tahansa puhelinformaatti
DOB / Syntymäaika / Birthday	Muunna sarjanumerot päivämääriksi
Etunimi / Sukunimi / Koko nimi	Alenna nimiä tunnistavan kynnystä
Osoite / Katu / Kaupunki / Postinumero	Yhdistä läheiset sijaintikentät
Patient ID / MRN / Record Number	Sovella terveydenhuollon tunnistekuvioita

Sarakkeen konteksti ei korvaa sisältöskannauksia. Se täydentää niitä. "SSN"-niminen sarake, jossa on 100 arvoa: sisältöskannaus havaitsee 99 hyvin muotoiltua arvoa. Sarakkeen konteksti havaitsee sen, joka näyttää oudolta.

Säilytä rakenne, poista nimet

Tavoite useimmissa Excel GDPR -tapauksissa ei ole tuhota tiedosto. Se on riisua pois henkilötieto ja pitää tiedoston hyödyllisenä osat.

Vaatimustenmukaisuusvastaava tarvitsee 15 000 rivin henkilöstötiedostolle:

Poista:

Työntekijöiden nimet → PERSON_XXXX-tunnisteet
Henkilötunnukset → REDACTED
Sähköpostiosoitteet → REDACTED
Puhelinnumerot → REDACTED
Kotiosoitteet → REDACTED

Säilytä:

Osastokoodit
Työnimikkeet (yleiset roolit vain)
Palkkaluokat (laajat kategoriat)
Suorituspisteet (ryhmädata)
Aloituspäivämäärät (työsuhteen pituustilastoja varten)
Esimieskoodit (jos pseudonymisoidut)

Työkalu, joka tietää eron "ihmisiä yksilöivän datan" ja "töitä kuvaavan datan" välillä, antaa sinulle tiedoston, joka toimii edelleen HR-analytiikassa — ja täyttää GDPR:n tietojen minimoinnin säännöt.

Todellinen tapaus: Yrityskaupan HR-tietojen siirto

Ostava yritys saa myytävän yrityksen henkilöstötietueet: 15 000 rivin XLSX-tiedoston, jossa on 40 saraketta. Tiedoston on mentävä ulkopuoliselle HR-yritykselle etuussuunnittelua varten. GDPR sanoo, että vain tehtävälle tarvittava data voidaan jakaa.

Ennen käsittelyä: 40 saraketta täynnä nimiä, henkilötunnuksia, sähköposteja, kotiosoitteita, hätäyhteystietoja ja pankkitietoja.

Sarakeontekstianalysoinnin jälkeen:

12 saraketta tunnistaa suoraan ihmisiä (nimet, henkilötunnukset, sähköpostit, puhelimet, osoitteet, pankkitiedot): korvattu johdonmukaisilla tunnisteilla
3 saraketta tunnistaa ihmisiä epäsuorasti (henkilöstötunnus, esimiestunnus, työnimike): korvattu pseudonyymisillä tunnisteilla, jotka täsmäävät tiedoston sisällä
25 saraketta on aggregoitua dataa (palkkaluokka, osasto, työsuhteen pituus, taso): jätetty muuttumattomiksi

Aika: 8 minuuttia 600 000 solulle

Tuotos: Sama XLSX-asettelu, 40 saraketta, 15 anonymisoitu, 25 muuttamaton

Auditointiloki: Solutasoinen tietue kaikista toimenpiteistä yksikkötyypillä, luottamuspisteellä ja käytetyllä sarakkeen signaalilla

HR-yritys saa täydellisen tietosarjan työtään varten — ilman nimiä tai tunnistetietoja. Vaatimustenmukaisuustietue saa todisteen siitä, että vain oikea data jaettiin.

Tämä haaste ei ole yksinomaan Excelin ongelma. Jokainen tiedostoformaatti epäonnistuu omalla tavallaan. Katso miten formaattien hajanaisuus vaikuttaa henkilötietojen tunnistukseen eri tiedostotyyppien tarkastelua varten.

Kolme GDPR:n artikla 5:n sääntöä, yksi prosessi

Rakenteellinen taulukkolaskentatiedostojen anonymisointi täyttää kolme sääntöä kerralla.

Tietojen minimointi (art. 5(1)(c)): Vain tehtävälle tarvittavat sarakkeet menevät vastaanottajalle. Tunnistussarakkeet pyyhitään.

Tallennusrajoitus (art. 5(1)(e)): Alkuperäinen tiedosto pysyy lakisääteistä säilytystä varten. Puhdas kopio tehdään jakamista varten — lyhyemmällä tai ilman säilytystarvetta.

Eheys ja luottamuksellisuus (art. 5(1)(f)): Yksikään tunnistava tieto ei lähde valvonta-alueelta. Vain puhtaat kopiot jaetaan.

Prosessin auditointiloki on myös artiklan 5(2) mukainen todistusaineisto. Se osoittaa, miten kukin sääntö täytettiin kunkin tiedoston osalta.

Jos tiimisi käsittelee DSAR-pyyntöjä tai suuria datavientiä, sama logiikka soveltuu API-tasolla. Katso miten GDPR:n tietojen minimointi toimii reaaliaikaisissa API-rajapinnoissa.

Tiimeille, jotka käsittelevät suuria volyymeja tiukkojen määräaikojen kanssa, katso GDPR DSAR -eräkäsittely mittakaavassa myös tähän soveltuvista työnkulkumalleista.

Lähteet

Liittyvät Artikkelit

GDPR & Vaatimustenmukaisuus

Itse isännöidyt PII-työkalut epäonnistuvat compliance-auditoinneissa

spaCy 3.4.4 tuottaa erilaisia NER-tuloksia kuin spaCy 3.5.1. Eräs finanssipalveluyritys havaitsee, että 3 % asiakirjoista oli anonymisoitu eri tavalla staging- kuin tuotantoympäristössä — GDPR-auditoinnin tulos.

GDPR & Vaatimustenmukaisuus

Presidio ei tunnista 220+ GDPR-entiteettiä

Presidio toimitetaan noin 40 valmiilla entiteettitunnistimella, jotka keskittyvät yhdysvaltalaisiin tunnistimiin. Eurooppalaiset organisaatiot tarvitsevat IBAN:ia, kansallisia verotunnistenumeroita ja kansallisia asiakirjoja, joita Presidio ei sisällä.

GDPR & Vaatimustenmukaisuus

Konfiguraation ajautuminen: piilevä GDPR-riski

Analyytikko A korvaa nimet pseudonyymeillä. Analyytikko B mustaa ne. GDPR-tarkastuksesi löytää molemmat samasta aineistosta. Konfiguraation ajautuminen — jossa tiimi...

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

Excel ja henkilötiedot: Anonymisoi satoja sarakkeita

Miksi Excel on korkeariskisin tiedostotyyppisi

Miksi tavalliset tekstiskannaukset epäonnistuvat taulukkolaskentatiedostoissa

Henkilötunnus-numerona-ongelma

Päivämäärä-numerona-ongelma

Osittainen-henkilötunnus-ongelma

Kaava-henkilötieto-ongelma

Monilehti-ongelma

Sarakeotsikoiden käyttö signaalina

Säilytä rakenne, poista nimet

Todellinen tapaus: Yrityskaupan HR-tietojen siirto

Kolme GDPR:n artikla 5:n sääntöä, yksi prosessi

Lähteet

Liittyvät Artikkelit

Itse isännöidyt PII-työkalut epäonnistuvat compliance-auditoinneissa

Presidio ei tunnista 220+ GDPR-entiteettiä

Konfiguraation ajautuminen: piilevä GDPR-riski

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow