anonym.legal
Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Excel ja GDPR: Kuinka anonymisoida taulukot, joissa on satoja PII-sarakkeita ilman, että tietorakenne häviää

Excel on yksi PII-tiheimmistä asiakirjatyyppien liiketoimintatoiminnoissa. Tässä on syyt, miksi standarditekstianalyysi epäonnistuu taulukoissa ja mitä sarakekontekstin tunnistus muuttaa.

March 7, 20268 min lukuaika
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Miksi Excel on korkein riskiasiakirjatyyppi

Kaikista asiakirjatyyppien, jotka keräävät PII:tä liiketoimintaympäristöissä, taulukot ovat GDPR-yhteensopivuuden näkökulmasta yksi vaarallisimmista.

Ei siksi, että ne olisivat kaikkein arkaluontoisimpia — lääketieteelliset asiakirjat ja oikeudelliset asiakirjat ovat selvästi korkeammassa riskissä yksittäisten tietojen kohteiden osalta. Mutta koska Excel-taulukot omaavat ominaisuuksia, jotka tekevät niistä järjestelmällisesti alikäsiteltyjä vaatimustenmukaisuusprosesseissa:

Määrä ja levinneisyys: Yksi XLSX-tiedosto voi sisältää 50 000 riviä ja 100 saraketta. Jokainen solu on potentiaalinen PII-paikka. Mikään manuaalinen tarkistusprosessi ei skaalautu luotettavasti tähän määrään.

Rakenteellinen monimuotoisuus: Toisin kuin tekstiasiakirjat (peräkkäiset) tai PDF-tiedostot (sivupohjaiset), Excelillä on kaksidimensionaalinen rakenne, jossa konteksti jakautuu vaakasuunnassa (sarakkeiden otsikot) ja pystysuunnassa (rivisuhteet). PII voi esiintyä missä tahansa.

Liiketoimintakriittiset ei-PII-tiedot sekoitettuna PII:hin: Palkkatiedot, suorituskykypisteet, osastokoodit ja muut lailliset liiketoimintatiedot esiintyvät samassa taulukossa kuin sosiaaliturvatunnukset ja sähköpostiosoitteet. Huoleton anonymisointi, joka sumentaa ei-PII-tietoja, tekee taulukosta käyttökelvottoman.

Pitkä säilytys ilman tarkistusta: Asiakastietokannat, työntekijärekisterit ja toimittajalistat kerääntyvät Excel-tiedostoihin ja niitä säilytetään usein vuosia ilman GDPR-tarkistusta. GDPR:n säilyttämisrajoitusperiaate (artikla 5(1)(e)) vaatii, että tietoja säilytetään "ei pidempään kuin on tarpeen" — mutta taulukot, jotka "voisivat olla hyödyllisiä", yleensä pysyvät ikuisesti.

Taulukon PII-tunnistamisen tekniset haasteet

Standardit tekstianalyysimenetelmät epäonnistuvat taulukoissa ennakoitavilla tavoilla:

SSN-numerona ongelma

Yhdysvaltain sosiaaliturvatunnukset, jotka on tallennettu Excel-soluihin ilman viivoja (123456789), tallennetaan Excelissä numeroina, ei tekstinä. Tekstianalyysi, joka skannaa kaavaa "###-##-####", ohittaa nämä. Muotoa tunnistava tunnistus on tunnistettava, että 9-numeroinen luku sarakkeessa, jonka otsikko on "SSN", on sosiaaliturvatunnus, vaikka siinä ei olisikaan viivoja.

Päivämäärä-numerona ongelma

Excel tallentaa päivämäärät sisäisesti sarjanumeroina (1. tammikuuta 1900 = 1; 6. helmikuuta 2024 = 45329). Solu, joka näyttää "02/06/2024", tallennetaan muodossa "45329". Excelistä viedyn CSV-tiedoston analyysi voi nähdä "45329" "Syntymäpäivä" -sarakkeessa — numero, ei päivämäärä. Kontekstitietoisen tunnistuksen on käsiteltävä tämä muunnos.

Osittainen SSN-ongelma

Jotkut vaatimustenmukaisuusprosessit tallentavat sosiaaliturvatunnuksia vain viimeiset neljä numeroa näkyvissä operatiivista käyttöä varten (*--1234). Täysi SSN on tallennettu erilliseen lukittuun sarakkeeseen valtuutetuille käyttäjille. Osittaisen arvon anonymisointi on tarpeen, vaikka se ei vastaa täysiä SSN-kaavoja.

Laskennallinen PII-ongelma

Joissakin soluissa on kaavoja, jotka tuottavat PII-arvoja muista soluista. Solu, jossa on =CONCATENATE(B2," ",C2), voi tuottaa koko nimen etu- ja sukunimen sarakkeista. Etu- ja sukunimen sarakkeiden (B ja C) anonymisointi on oikein; myös yhdistämissolu on päivitettävä. Työkalut, jotka analysoivat soluarvoja ilman kaavaviittauksia, voivat tuottaa taulukoita, joissa PII esiintyy kaavan tulosteissa, vaikka lähdesolut olisi anonymisoitu.

Monisivun johdonmukaisuusongelma

Suurella Excel-työkirjalla voi olla 5 sivua: "Asiakastiedot", "Tilaukset", "Tukipyynnöt", "Laskutus", "Analytiikka". Asiakkaiden nimet esiintyvät kaikilla viidellä sivulla. Johdonmukainen anonymisointi vaatii, että sama asiakas saa saman anonymisointitunnuksen kaikilla sivuilla — niin että "John Smith" Asiakaslistassa ja "John Smith" Tukipyynnöissä muuttuvat molemmat johdonmukaisesti "PERSON_0047":ksi, eivätkä kahdeksi eri tunnukseksi, jotka rikkovat tietojen yhdistämistä.

Sarakekonteksti tunnistussignaalina

Merkittävin parannus taulukkoerityisessä PII-tunnistuksessa on sarakeotsikkokontekstin analyysi.

Periaate: Sarake, jonka otsikko on "SSN" tai "Sosiaaliturvatunnus", merkitsee tunnistusmoottorille, että kaikki arvot kyseisessä sarakkeessa tulisi käsitellä sosiaaliturvatunnuksina, vaikka yksittäiset arvot olisivat osittaisia, muotoiltu eri tavalla tai tallennettu numeroina.

Sarakekonteksti, joka parantaa tunnistustarkkuutta:

SarakeotsikkoTunnistussignaali
SSN / Sosiaaliturva / VerotunnusSSN-konteksti — 9-numerot käsitellään SSN:inä
Sähköposti / Sähköposti / SähköpostiosoiteSähköpostikonteksti — validoi jopa osittaiset kaavat
Puhelin / Puhelin / Matkapuhelin / SoluPuhelinkonteksti — hyväksyy erilaisia muotoiluja
DOB / Syntymäpäivä / SyntymäpäiväPäivämääräkonteksti — muuntaa sarjanumerot päivämääriksi
Etunimi / Sukunimi / Koko nimiNimikonteksti — laskee NER-tunnistuksen kynnystä
Osoite / Katu / Kaupunki / POSTINUMEROOsoitekonteksti — yhdistää maantieteelliset kentät
Potilastunnus / MRN / AsiakirjanumeroTerveydenhuollon ID -konteksti — laitossidonnaiset kaavat

Sarakekontekstin analyysi ei korvaa sisällön analyysia — se täydentää sitä. Sarake, jonka otsikossa on "SSN" ja 100 arvoa, tunnistaa 99 hyvin muotoiltua SSN:ää sisällön analyysin kautta; sarakekonteksti auttaa tunnistamaan 1 huonosti muotoiltua tai osittaista arvoa.

Säilyttämisvaatimus: Anonymisoi PII, säilytä rakenne

Useimmissa Excel GDPR -skenaarioissa vaatimustenmukaisuustavoite ei ole tuhota taulukkoa — vaan poistaa henkilökohtaiset tunnisteet samalla kun säilytetään datarakenteet, jotka tekevät taulukosta käyttökelpoisen.

15 000 rivin työntekijätietotaulukolle GDPR:n vaatimustenmukaisuusvastaava tarvitsee:

Anonymisoi:

  • Työntekijöiden nimet → PERSON_XXXX -tunnukset
  • SSN:t → REDACTED
  • Sähköpostiosoitteet → REDACTED
  • Puhelinnumerot → REDACTED
  • Osoitteet → REDACTED

Säilytä:

  • Osastokoodit (eivät henkilökohtaisia tunnisteita)
  • Työnimikkeet (yleiset roolit, eivät yksilöllisesti tunnistettavat)
  • Palkkaluokat (kumulatiiviset kategoriat, eivät tietyt summat joissakin toteutuksissa)
  • Suorituskykypisteet (tilastotiedot)
  • Aloituspäivät (työsuhteen analyysi ilman yksilöiden tunnistamista)
  • Esimieskoodit (jos esimiehet on pseudonymisoitu johdonmukaisesti)

Työkalu, joka säilyttää eron "asioiden, jotka tunnistavat yksilöitä" ja "asioiden, jotka kuvaavat työsuhdemalleja" välillä, tuottaa taulukon, joka pysyy käyttökelpoisena HR-analytiikkaa varten samalla kun se täyttää tietojen minimoinnin ja pseudonymisoinnin vaatimukset.

Käyttötapaus: M&A HR-tietojen siirto

Hankintayritys saa työntekijätietoja hankitulta yritykseltä: 15 000 rivin XLSX, jossa on 40 saraketta. Tiedot on jaettava ulkoiselle HR-konsultille etuuksien integrointisuunnittelua varten. GDPR vaatii, että vain etuuksien suunnitteluun tarvittavat tiedot jaetaan — palkkaluokat, osastokoodit, työsuhde, työasteet — ei tunnistavat tiedot.

Ennen anonymisointia: 40 saraketta × 15 000 riviä, mukaan lukien koko nimet, SSN:t, sähköpostiosoitteet, osoitteet, hätäyhteystiedot ja pankkitilitiedot palkkoja varten.

Käsittely sarakekontekstin tunnistuksella:

  • 12 saraketta tunnistettiin suoraan tunnistaviksi (nimet, SSN:t, sähköpostit, puhelin, osoite, pankkitili): solukohtainen korvaaminen johdonmukaisilla tunnuksilla
  • 3 saraketta tunnistettiin epäsuorasti tunnistaviksi (työntekijätunnus, esimieskoodi, ainutlaatuinen työkoodi): korvattiin pseudonyymeillä (johdonmukaisia tiedostossa, ei ristiviitattavissa ulkoisiin asiakirjoihin)
  • 25 saraketta tunnistettiin ei-tunnistaviksi tilastotiedoiksi (palkkaluokka, osasto, työsuhde, aste): säilytettiin muuttumattomina

Käsittelyaika: 8 minuuttia 600 000 solulle Tuloste: XLSX alkuperäisessä muodossa, 40 saraketta ehjinä, 15 saraketta anonymisoitu/pseudonymisoitu, 25 saraketta muuttumattomina Tarkastusraportti: Solukohtainen loki kaikista 200 000+ anonymisointitoimista, joissa on entiteettityyppi, luottamus ja käytetty sarakekontekstin signaali

HR-konsultille: täydellinen tietojoukko etuuksien suunnittelua varten ilman tunnistavia tietoja. GDPR:n vaatimustenmukaisuusasiakirjalle: tarkastusraportti, joka osoittaa tarkoitusrajoituksen — vain tietoja, jotka ovat tarpeen erityistä tehtävää varten, jaettiin.

GDPR:n artikla 5:n vaatimukset, jotka täyttyvät rakenteellisella anonymisoinnilla

Taulukkoerityinen anonymisointi täyttää kolme artikla 5:n periaatetta samanaikaisesti:

Tietojen minimointi (Art. 5(1)(c)): Vain erityiseen tarkoitukseen tarvittavat sarakkeet jaetaan; tunnistavat sarakkeet anonymisoidaan.

Säilyttämisrajoitus (Art. 5(1)(e)): Alkuperäiset tiedostot säilytetään (tunnistavilla tiedoilla) lainmukaisina säilytysjaksoina; anonymisoidut versiot luodaan jakamiskonteksteihin, joissa on lyhyemmät tai ei säilytysvaatimuksia.

Eheyden ja luottamuksellisuuden (Art. 5(1)(f)): Tunnistavat tiedot poistetaan kaikista jakotapauksista; vain anonymisoidut versiot poistuvat hallintaympäristöstä.

Anonymisointiprosessin audit trail tarjoaa artikla 5(2) vastuullisuusasiakirjat — osoittaen vaatimustenmukaisuuden jokaiselle periaatteelle jokaiselle käsitellylle taulukolle.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.