Miksi Excel on korkeariskisin tiedostotyyppisi
Excel-tiedostot ovat yksi suurimmista GDPR-riskeistä useimmissa yrityksissä. Lääketieteellisissä tietueissa saattaa olla enemmän arkaluonteista dataa riviä kohden. Mutta taulukkolaskentatiedostot kerryttävät henkilötietoja nopeasti — ja vaatimustenmukaisuustiimit jättävät ne usein huomaamatta.
Kolme asiaa tekee Excel-tiedostoista vaikea hallita.
Volyymi: Yksi XLSX-tiedosto voi sisältää 50 000 riviä ja 100 saraketta. Se on viisi miljoonaa solua. Yksikään manuaalinen tarkistus ei voi tarkistaa niitä kaikkia.
Ruutukko-asettelu: Teksti virtaa yhteen suuntaan. Excel levittää datan riveille ja sarakkeille. Henkilötiedot voivat piiloutua mihin tahansa kohtaan tässä ruudukossa.
Sekainen sisältö: Palkkaluokat, osastokoodit ja työnimikkeet ovat samassa tiedostossa henkilötunnusten ja sähköpostiosoitteiden kanssa. Kaiken poistaminen tekee tiedostosta hyödyttömän.
Pitkä säilytysaika: Henkilöstölistat ja asiakastietueet jäävät Exceliin vuosiksi. GDPR:n artikla 5(1)(e) sanoo, että dataa tulee säilyttää "ei pidempään kuin on tarpeen." Tiedostot, jotka "saattavat olla hyödyllisiä", pysyvät usein kauan tämän rajan yli.
Miksi tavalliset tekstiskannaukset epäonnistuvat taulukkolaskentatiedostoissa
Tekstinkäsittelytyökalut on rakennettu asiakirjoja varten. Ne hajoavat taulukkolaskentatiedostoissa muutamilla yleisillä tavoilla.
Henkilötunnus-numerona-ongelma
Excel tallentaa henkilötunnukset ilman väliviivoja (123456789) tavallisina numeroina — ei tekstinä. Skanneri, joka etsii ###-##-####-kaavaa, ei löydä niitä. Hyvän työkalun on tiedettävä, että 9-numeroinen luku "SSN"-nimisessä sarakkeessa on henkilötunnus.
Päivämäärä-numerona-ongelma
Excel tallentaa päivämäärät sarjanumeroina. Helmikuu 6, 2024 on tallennettu numerona 45329. CSV-vienti näyttää "45329" "Syntymäaika"-sarakkeessa. Skannerin on muunnettava tämä luku todelliseksi päivämääräksi ennen kuin se voi merkitä arvon.
Osittainen-henkilötunnus-ongelma
Jotkin järjestelmät näyttävät vain henkilötunnuksen neljä viimeistä numeroa (*--1234). Koko numero on lukitussa sarakkeessa. Osittainen arvo on silti anonymisoitava — vaikka se ei näytä täydeltä henkilötunnukselta.
Kaava-henkilötieto-ongelma
Joissakin soluissa on henkilötieto rakennettu muista soluista. Solu, jossa on =CONCATENATE(B2," ",C2), näyttää koko nimen. Jos tyhjennät sarakkeet B ja C, tämä koko nimi on edelleen näkyvissä kaavan solussa. Työkalu, joka lukee vain tallennettuja arvoja — ei kaavalinkkejä — jättää henkilötiedot paikoilleen.
Monilehti-ongelma
Suuressa työkirjassa voi olla viisi välilehteä: Asiakasluettelo, Tilaukset, Tukipyynnöt, Laskutus ja Analytiikka. Asiakkaiden nimet esiintyvät kaikilla viidellä. "Matti Virtanen" yhdessä välilehdessä on muutettava samaksi tunnisteeksi — "PERSON_0047" — kaikissa muissa välilehdissä. Kaksi eri tunnistetta rikkoo tietueiden väliset linkit.
Sarakeotsikoiden käyttö signaalina
Paras parannus taulukkolaskentatiedostojen henkilötietojen tunnistuksessa on sarakeotsikoiden analyysi.
"SSN"-niminen sarake kertoo työkalulle, että kaikki kyseisen sarakkeen arvot ovat henkilötunnuksia. Tämä toimii, vaikka arvot ovat osittaisia, erikoisesti muotoiltuja tai tallennettu numeroina.
| Sarakeotsikoiden | Mitä se tarkoittaa |
|---|---|
| SSN / Henkilötunnus / Verotunnus | Käsittele 9-numeroiset luvut henkilötunnuksina |
| Email / Sähköposti / E-mail Address | Merkitse jopa osittaiset sähköpostikaavat |
| Phone / Puhelin / Mobile / Cell | Hyväksy mikä tahansa puhelinformaatti |
| DOB / Syntymäaika / Birthday | Muunna sarjanumerot päivämääriksi |
| Etunimi / Sukunimi / Koko nimi | Alenna nimiä tunnistavan kynnystä |
| Osoite / Katu / Kaupunki / Postinumero | Yhdistä läheiset sijaintikentät |
| Patient ID / MRN / Record Number | Sovella terveydenhuollon tunnistekuvioita |
Sarakkeen konteksti ei korvaa sisältöskannauksia. Se täydentää niitä. "SSN"-niminen sarake, jossa on 100 arvoa: sisältöskannaus havaitsee 99 hyvin muotoiltua arvoa. Sarakkeen konteksti havaitsee sen, joka näyttää oudolta.
Säilytä rakenne, poista nimet
Tavoite useimmissa Excel GDPR -tapauksissa ei ole tuhota tiedosto. Se on riisua pois henkilötieto ja pitää tiedoston hyödyllisenä osat.
Vaatimustenmukaisuusvastaava tarvitsee 15 000 rivin henkilöstötiedostolle:
Poista:
- Työntekijöiden nimet → PERSON_XXXX-tunnisteet
- Henkilötunnukset → REDACTED
- Sähköpostiosoitteet → REDACTED
- Puhelinnumerot → REDACTED
- Kotiosoitteet → REDACTED
Säilytä:
- Osastokoodit
- Työnimikkeet (yleiset roolit vain)
- Palkkaluokat (laajat kategoriat)
- Suorituspisteet (ryhmädata)
- Aloituspäivämäärät (työsuhteen pituustilastoja varten)
- Esimieskoodit (jos pseudonymisoidut)
Työkalu, joka tietää eron "ihmisiä yksilöivän datan" ja "töitä kuvaavan datan" välillä, antaa sinulle tiedoston, joka toimii edelleen HR-analytiikassa — ja täyttää GDPR:n tietojen minimoinnin säännöt.
Todellinen tapaus: Yrityskaupan HR-tietojen siirto
Ostava yritys saa myytävän yrityksen henkilöstötietueet: 15 000 rivin XLSX-tiedoston, jossa on 40 saraketta. Tiedoston on mentävä ulkopuoliselle HR-yritykselle etuussuunnittelua varten. GDPR sanoo, että vain tehtävälle tarvittava data voidaan jakaa.
Ennen käsittelyä: 40 saraketta täynnä nimiä, henkilötunnuksia, sähköposteja, kotiosoitteita, hätäyhteystietoja ja pankkitietoja.
Sarakeontekstianalysoinnin jälkeen:
- 12 saraketta tunnistaa suoraan ihmisiä (nimet, henkilötunnukset, sähköpostit, puhelimet, osoitteet, pankkitiedot): korvattu johdonmukaisilla tunnisteilla
- 3 saraketta tunnistaa ihmisiä epäsuorasti (henkilöstötunnus, esimiestunnus, työnimike): korvattu pseudonyymisillä tunnisteilla, jotka täsmäävät tiedoston sisällä
- 25 saraketta on aggregoitua dataa (palkkaluokka, osasto, työsuhteen pituus, taso): jätetty muuttumattomiksi
Aika: 8 minuuttia 600 000 solulle
Tuotos: Sama XLSX-asettelu, 40 saraketta, 15 anonymisoitu, 25 muuttamaton
Auditointiloki: Solutasoinen tietue kaikista toimenpiteistä yksikkötyypillä, luottamuspisteellä ja käytetyllä sarakkeen signaalilla
HR-yritys saa täydellisen tietosarjan työtään varten — ilman nimiä tai tunnistetietoja. Vaatimustenmukaisuustietue saa todisteen siitä, että vain oikea data jaettiin.
Tämä haaste ei ole yksinomaan Excelin ongelma. Jokainen tiedostoformaatti epäonnistuu omalla tavallaan. Katso miten formaattien hajanaisuus vaikuttaa henkilötietojen tunnistukseen eri tiedostotyyppien tarkastelua varten.
Kolme GDPR:n artikla 5:n sääntöä, yksi prosessi
Rakenteellinen taulukkolaskentatiedostojen anonymisointi täyttää kolme sääntöä kerralla.
Tietojen minimointi (art. 5(1)(c)): Vain tehtävälle tarvittavat sarakkeet menevät vastaanottajalle. Tunnistussarakkeet pyyhitään.
Tallennusrajoitus (art. 5(1)(e)): Alkuperäinen tiedosto pysyy lakisääteistä säilytystä varten. Puhdas kopio tehdään jakamista varten — lyhyemmällä tai ilman säilytystarvetta.
Eheys ja luottamuksellisuus (art. 5(1)(f)): Yksikään tunnistava tieto ei lähde valvonta-alueelta. Vain puhtaat kopiot jaetaan.
Prosessin auditointiloki on myös artiklan 5(2) mukainen todistusaineisto. Se osoittaa, miten kukin sääntö täytettiin kunkin tiedoston osalta.
Jos tiimisi käsittelee DSAR-pyyntöjä tai suuria datavientiä, sama logiikka soveltuu API-tasolla. Katso miten GDPR:n tietojen minimointi toimii reaaliaikaisissa API-rajapinnoissa.
Tiimeille, jotka käsittelevät suuria volyymeja tiukkojen määräaikojen kanssa, katso GDPR DSAR -eräkäsittely mittakaavassa myös tähän soveltuvista työnkulkumalleista.