Kodėl Excel yra jūsų didžiausios rizikos failų tipas
Excel failai yra viena didžiausių BDAR rizikų daugelyje įmonių. Medicinos įrašai gali turėti jautresnių duomenų vienoje eilutėje. Tačiau skaičiuoklės greitai kaupia asmens duomenis - ir atitikties komandos dažnai jų nepastebi.
Trys dalykai apsunkina Excel failų valdymą.
Apimtis: Vienas XLSX failas gali turėti 50 000 eilučių ir 100 stulpelių. Tai penkis milijonus ląstelių. Jokia rankinė peržiūra negali patikrinti visų jų.
Tinklelio išdėstymas: Tekstas teka viena kryptimi. Excel skleidžia duomenis per eilutes ir stulpelius. Asmens duomenys gali slėptis bet kur tame tinklelyje.
Mišrus turinys: Atlyginimų grupės, padalinių kodai ir pareigybių lygiai yra tame pačiame faile kaip SSN ir el. pašto adresai. Visko ištrynimas padaro failą nenaudingą.
Ilgas saugojimas: Darbuotojų sąrašai ir klientų įrašai išlieka Excel metų metus. BDAR 5 straipsnio 1 dalies e punktas sako, kad duomenys turi būti saugomi "ne ilgiau nei būtina". Failai, kurie "gali būti naudingi", dažnai išlieka daug ilgiau nei tas taškas.
Kodėl standartiniai teksto nuskaitymai nepavyksta skaičiuoklėse
Teksto analizės įrankiai buvo sukurti dokumentams. Jie žlunga skaičiuoklėse keliais įprastais būdais.
SSN kaip skaičiaus problema
Excel saugo socialinio draudimo numerius be brūkšnelių (123456789) kaip paprastus skaičius - ne tekstą. Skaitytuvas, sukurtas rasti ###-##-####, jų praleis. Geras įrankis turi žinoti, kad 9 skaitmenų skaičius stulpelyje "SSN" yra socialinio draudimo numeris.
Datos kaip skaičiaus problema
Excel saugo datas kaip eilučių numerius. 2024 m. vasario 6 d. saugoma kaip 45329. CSV eksportas rodys "45329" stulpelyje "Gimimo data". Skaitytuvas turi konvertuoti tą skaičių į tikrą datą prieš galėdamas pažymėti reikšmę.
Dalinio SSN problema
Kai kurios sistemos rodo tik paskutinį keturių SSN skaitmenų (*--1234). Pilnas numeris yra užrakintame stulpelyje. Dalinė reikšmė vis tiek turi būti anonimizuota - net jei neatrodo kaip pilnas SSN.
Formulės asmens duomenų problema
Kai kurios ląstelės konstruoja asmens duomenis iš kitų ląstelių. Ląstelė su =CONCATENATE(B2," ",C2) rodo pilną vardą. Jei išvalysite stulpelius B ir C, tas pilnas vardas vis tiek matomas formulės ląstelėje. Įrankis, skaitantis tik saugomas reikšmes - ne formulių ryšius - paliks asmens duomenis vietoje.
Kelių lapų problema
Dideliame darbaknygėje gali būti penki lapai: Klientų sąrašas, Užsakymai, Palaikymo bilietai, Atsiskaitymas ir Analizė. Klientų vardai pasirodo visuose penkiuose. "Jonas Jonaitis" viename lape turi tapti tuo pačiu prieketu - "PERSON_0047" - kiekviename kitame lape. Du skirtingi prieketai sulaužo įrašų ryšius.
Stulpelių antraštės kaip signalas
Geriausias patobulinimas skaičiuoklių asmens duomenų aptikimui yra stulpelių antraščių analizė.
Stulpelis, vadinamas "SSN", nurodo įrankiui, kad visos to stulpelio reikšmės yra socialinio draudimo numeriai. Tai veikia net jei reikšmės yra dalinės, neįprastu formatu ar saugomos kaip skaičiai.
| Stulpelio antraštė | Ką ji signalizuoja |
|---|---|
| SSN / Socialinis draudimas / Mokesčių ID | Traktuokite 9 skaitmenų skaičius kaip SSN |
| El. paštas / E-mail / El. pašto adresas | Pažymėkite net dalinius el. pašto šablonus |
| Telefonas / Telefono numeris / Mobilus | Priimkite bet kokį telefono formatą |
| Gimimo data / Data | Konvertuokite eilučių numerius į datas |
| Vardas / Pavardė / Pilnas vardas | Sumažinkite vardo aptikimo ribą |
| Adresas / Gatvė / Miestas / Pašto kodas | Sujunkite gretimus vietos laukus |
| Paciento ID / MRN / Įrašo numeris | Taikykite sveikatos priežiūros ID šablonus |
Stulpelio kontekstas nepakeičia turinio nuskaitymo. Jis papildo jį. Stulpelis, vadinamas "SSN", su 100 reikšmių: turinio nuskaitymas sugauna 99 gerai suformatuotas. Stulpelio kontekstas sugauna tą, kuri atrodo neįprastai.
Išlaikykite struktūrą, pašalinkite vardus
Daugumoje Excel BDAR atvejų tikslas nėra sunaikinti failą. Tai - ištrinti asmens duomenis išlaikant dalis, kurios daro failą naudingą.
15 000 eilučių darbuotojų įrašų failui atitikties pareigūnui reikia:
Pašalinti:
- Darbuotojų vardai - PERSON_XXXX prieketai
- SSN - REDAGUOTA
- El. pašto adresai - REDAGUOTA
- Telefono numeriai - REDAGUOTA
- Namų adresai - REDAGUOTA
Išlaikyti:
- Padalinių kodai
- Pareigybių pavadinimai (tik bendrieji vaidmenys)
- Atlyginimų grupės (plačios kategorijos)
- Veiklos rezultatų balai (grupės duomenys)
- Pradžios datos (stažo statistikai)
- Vadovų kodai (jei pseudonimizuoti)
Įrankis, žinantis skirtumą tarp "duomenų, kurie identifikuoja žmones" ir "duomenų, aprašančių darbus", suteikia failą, kuris vis dar veikia HR analizei - ir atitinka BDAR duomenų mažinimo taisykles.
Tikras atvejis: M&A HR duomenų perdavimas
Įsigyjanti įmonė gauna darbuotojų įrašus iš tikslinės firmos: 15 000 eilučių XLSX su 40 stulpelių. Failas turi būti perduotas išorinei HR firmai naudų planavimui. BDAR sako, kad gali būti bendrinti tik tai užduočiai reikalingi duomenys.
Prieš apdorojimą: 40 stulpelių su pilnais vardais, SSN, el. paštais, namų adresais, kontaktiniais asmenimis ir banko duomenimis.
Po stulpelių konteksto apdorojimo:
- 12 stulpelių tiesiogiai identifikuoja žmones (vardai, SSN, el. paštai, telefonai, adresai, banko duomenys): pakeisti nuosekliais prieketais
- 3 stulpeliai netiesiogiai identifikuoja žmones (darbuotojų ID, vadovo kodas, darbo kodas): pakeisti pseudoniminiais prieketais, atitinkančiais failo viduje
- 25 stulpeliai yra suvestiniai duomenys (atlyginimų grupė, padalinys, stažas, lygis): palikti nepakeistu
Laikas: 8 minutės 600 000 ląstelių
Rezultatas: Tas pats XLSX išdėstymas, 40 stulpelių, 15 anonimizuotų, 25 nepakeitytų
Audito žurnalas: Ląstelių lygio kiekvieno veiksmo įrašas su objekto tipu, pasikliautinumo balu ir panaudotu stulpelio signalu
HR firma gauna pilną duomenų rinkinį savo darbui - be vardų ar ID. Atitikties įrašas gauna įrodymą, kad buvo bendrinti tik tinkami duomenys.
Šis iššūkis nėra unikalus Excel. Kiekvienas failų formatas žlunga savaip. Žiūrėkite kaip formatų fragmentacija veikia asmens duomenų aptikimą apžvalgai per failų tipus.
Trys BDAR 5 straipsnio taisyklės, vienas procesas
Struktūrizuotas skaičiuoklės anonimizavimas atitinka tris taisykles iš karto.
Duomenų mažinimas (5 str. 1 d. c p.): Tik gavėjui reikalingi stulpeliai. Identifikuojantys stulpeliai išvalomi.
Saugojimo apribojimas (5 str. 1 d. e p.): Originalus failas lieka dėl teisinio saugojimo. Bendrinimui sukuriama švari kopija - su trumpesniu ar be saugojimo poreikio.
Vientisumas ir konfidencialumas (5 str. 1 d. f p.): Jokie identifikuojantys duomenys nepalieka kontroliuojamos zonos. Bendrinamos tik švarios kopijos.
Audito žurnalas iš proceso yra ir jūsų 5 straipsnio 2 dalies įrodymas. Jis rodo, kaip kiekviena taisyklė buvo laikyta kiekvienam failui.
Jei jūsų komanda tvarko DSAR ar didelę duomenų eksportą, ta pati logika taikoma API lygiu. Žiūrėkite kaip BDAR duomenų mažinimas veikia realaus laiko API.
Komandoms, tvarkančioms didelius kiekius prie griežtų terminų, žiūrėkite BDAR DSAR paketinį apdorojimą plačiu mastu dėl čia taip pat taikomų darbo eigos modelių.