Zakaj Je Excel Vasa Datoteka z Najvecjim Tveganjem
Excelove datoteke so eno od najvecjih tveganj GDPR v vecini podjetij. Zdravstveni kartoni morda vsebujejo vec obcutljivih podatkov na vrstico. Toda preglednice kopicijo OO hitro -- in ekipe za skladnost jih pogosto spregleda.
Tri stvari otezujejo upravljanje Excelovih datotek.
Obseg: Ena datoteka XLSX lahko vsebuje 50.000 vrstic in 100 stolpcev. To je pet milijonov celic. Nobeden rocni pregled ne more preveriti vseh.
Mrezna postavitev: Besedilo tece v eni smeri. Excel razprsuje podatke po vrsticah in stolpcih. Osebni podatki se lahko skrijejo kjerkoli v tej mrezi.
Mesana vsebina: Placilni razredi, sifre oddelkov in razredi delovnih mest sedijo v isti datoteki kot identifikacijske stevilke in e-postni naslovi. Ce zbrisete vse, postane datoteka neuporabna.
Dolgo hrambo: Seznami osebja in evidenca strank ostanejo v Excelu leta. Clen 5(1)(e) GDPR pravi, da je treba podatke hraniti "ne dlje, kot je potrebno." Datoteke, ki "bi utegnile biti koristne", pogosto ostanejo precej cez ta rok.
Zakaj Standardna Skeniranja Besedila Odpadejo na Preglednicah
Orodja za analizo besedila so bila zgrajena za dokumente. Na preglednicah se podrejo na nekaj pogostih nacinov.
Problem EMSO-kot-Stevilka
Excel shrani maticne stevilke brez crtic (123456789) kot navadne stevilke -- ne besedilo. Preiskovalec, ki isce ###-##-####, jih bo zamudil. Dobro orodje mora vedeti, da je 9-stevilcna stevilka v stolpcu, imenovanem "EMSO", maticna stevilka.
Problem Datuma-kot-Stevilka
Excel shranjuje datume kot serijske stevilke. 6. februar 2024 je shranjen kot 45329. CSV izvoz bo prikazal "45329" v stolpcu "Datum rojstva". Preiskovalec mora to stevilko pretvoriti v pravi datum, preden jo lahko oznaci.
Problem Delnega EMSO-a
Nekateri sistemi prikazejo samo zadnje stiri stevilke EMSO (*--1234). Polna stevilka sedi v zaklenjenem stolpcu. Delna vrednost mora biti se vedno anonimizirana -- cetudi ne izgleda kot polni EMSO.
Problem Formula-OO
Nekatere celice gradijo OO iz drugih celic. Celica z =CONCATENATE(B2," ",C2) prikazuje polno ime. Ce zbrisete stolpca B in C, je to polno ime se vedno vidno v celici formule. Orodje, ki bere samo shranjene vrednosti -- ne povezav formule -- bo pustilo OO na mestu.
Problem Vec Listov
Veliki zvezek ima morda pet listov: Seznam strank, Narocila, Vstopnice za podporo, Zaracunavanje in Analitika. Imena strank se pojavljajo v vseh petih. "Janez Novak" na enem listu mora postati isti znak -- "OSEBA_0047" -- na vsakem drugem listu. Dva razlicna znaka unicita poveave zapisov.
Naslovi Stolpcev kot Signal
Najboljsa izboljsava pri zaznnavanju OO v preglednicah je analiza naslovov stolpcev.
Stolpec z imenom "EMSO" orodju pove, da so vse vrednosti v tem stolpcu maticne stevilke. To deluje, tudi ce so vrednosti delne, neobicajno oblikovane ali shranjene kot stevilke.
| Naslov stolpca | Kar signalizira |
|---|---|
| EMSO / Maticna stevilka / Davcna stevilka | Obravnavaj 9-stevilcne stevilke kot EMSO |
| E-posta / E-mail / E-postni naslov | Oznaci celo delne vzorce e-poste |
| Telefon / Telefonska stevilka / Mobitel | Sprejmi kateri koli format telefona |
| DOB / Datum rojstva / Rojstni dan | Pretvori serijske stevilke v datume |
| Ime / Priimek / Polno ime | Znizaj prag za zaznavanje imen |
| Naslov / Ulica / Mesto / Postna stevilka | Kombiniraj sosednja lokacijska polja |
| ID pacienta / MRN / Stevilka zapisa | Uporabi vzorce zdravstvenega ID |
Kontekst stolpca ne nadomesca skeniranja vsebine. Doda se k njemu. Stolpec z imenom "EMSO" s 100 vrednostmi: skeniranje vsebine ujame 99 dobro oblikovanih. Kontekst stolpca ujame tistega, ki izgleda neobicajno.
Ohranite Strukturo, Odstranite Imena
Cilj v vecini primerov Excel GDPR ni uniciti datoteko. Gre za to, da se osebni podatki izlocijo, medtem ko se ohranijo deli, ki naredijo datoteko koristno.
Za datoteko kadrovske evidence s 15.000 vrsticami uradnik za skladnost potrebuje:
Odstraniti:
- Imena zaposlenih -> znaki OSEBA_XXXX
- EMSO -> PRECRTAN
- E-postni naslovi -> PRECRTAN
- Telefonske stevilke -> PRECRTAN
- Domaci naslovi -> PRECRTAN
Ohraniti:
- Sifre oddelkov
- Nazivi delovnih mest (samo splosne vloge)
- Placilni razredi (sirse kategorije)
- Ocene uspesnosti (skupinski podatki)
- Datumi zacetka (za statistiko delodobe)
- Sifre vodij (ce so psevdonimizirani)
Orodje, ki pozna razliko med "podatki, ki identificirajo osebe" in "podatki, ki opisujejo delovna mesta", vam da datoteko, ki se vedno deluje za analizo cloveskih virov -- in ustreza pravilom GDPR o minimizaciji podatkov.
Primer iz Prakse: Prenos Kadrovskih Podatkov pri Prevzemu
Prevzemajoco podjetje dobi kadrovske evidence od ciljnega podjetja: XLSX s 15.000 vrsticami in 40 stolpci. Datoteka mora iti k zunanjemu podjetju za cloveske vire za nacrtovanje ugodnosti. GDPR pravi, da je mogoce deliti samo podatke, potrebne za to nalogo.
Pred obdelavo: 40 stolpcev s polnimi imeni, EMSO, e-posti, domacimi naslovi, kontakti v sili in bancnimi podatki.
Po kontekstni obdelavi stolpcev:
- 12 stolpcev neposredno identificira osebe (imena, EMSO, e-posti, telefon, naslovi, bancni podatki): zamenjani z doslednimi znaki
- 3 stolpci posredno identificirajo osebe (ID osebja, sifra vodje, sifra delovnega mesta): zamenjani s psevdonimnimi znaki, ki se ujemajo znotraj datoteke
- 25 stolpcev so skupni podatki (placilni razred, oddelek, delodobe, ocena): ostali nespremenjeni
Cas: 8 minut za 600.000 celic
Izhod: Ista postavitev XLSX, 40 stolpcev, 15 anonimiziranih, 25 nespremenjenih
Revizijski dnevnik: Evidenca na ravni celic vsakega dejanja z vrsto entitete, stopnjo zaupanja in uporabljenim signalom stolpca
Podjetje za cloveske vire dobi polni nabor podatkov za svoje delo -- brez imen ali ID-jev. Evidenca o skladnosti dobi dokaz, da so bili deljeni samo pravi podatki.
Ta izziv ni edinstven za Excel. Vsaka vrsta datoteke odpove na svoj nacin. Glejte kako razdrobljenost formatov vpliva na zaznavanje OO za pregled po vrstah datotek.
Tri Pravila Clena 5 GDPR, En Postopek
Strukturirana anonimizacija preglednic izpolnjuje tri pravila hkrati.
Minimizacija podatkov (cl. 5(1)(c)): Prejemniku gredo samo stolpci, potrebni za nalogo. Identifikacijski stolpci so zbrisani.
Omejitev hrambe (cl. 5(1)(e)): Izvorna datoteka ostane za pravno hrambo. Za deljenje se naredi cista kopija -- s krajso ali brez potrebe po hrambi.
Celovitost in zaupnost (cl. 5(1)(f)): Nobeni identifikacijski podatki ne zapustijo nadzornega obmocja. Delijo se samo ciste kopije.
Revizijski dnevnik iz postopka je tudi vas dokaz po clenu 5(2). Prikazuje, kako je bilo vsako pravilo izpolnjeno za vsako datoteko.
Ce vasa ekipa obravnava zahteve DSAR ali velike izvozne podatke, se enaka logika uporablja na ravni API. Glejte kako minimizacija podatkov GDPR deluje v API-jih v realnem casu.
Za ekipe z visokimi kolicinami pod tesnimi roki glejte paketna obdelava GDPR DSAR v obsegu za vzorce poteka dela, ki se tu prav tako uporabljajo.