Preco je Excel vasa najrizikovejsia typova pripona
Excelove subory predstavuju jedno z najvacsich rizik GDPR vo vacsine firiem. Zdravotne zaznamy mozu obsahovat citlivejsie data na riadok. Ale tabulkove subory rychlo hromadia OOU - a timy pre dodrzavanie predpisov ich casto prehliadnu.
Tri veci robia Excelove subory tazko spravovatelne.
Objem: Jeden subor XLSX moze obsahovat 50 000 riadkov a 100 stlpcov. To je pat milionu buniek. Ziadna manualna kontrola nemoze skontrolovat vsetky.
Mriezkovite rozlozenie: Text plynie jednym smerom. Excel rozklada data po riadkoch a stlpcoch. Osobne udaje sa mozu ukryt kdekovek v tejto mriezke.
Zmieszany obsah: Platove pasma, kody oddeleni a pracovne triedy su v tom istom subore ako cisla socialneho poistenia a emailove adresy. Vymazanie vsetkeho robi subor nepouitielnym.
Dlhe uchovavanie: Zoznamy zamestnancov a zaznamy zakaznikov zostavam v Exceli roky. GDPR clanok 5(1)(e) hovorri, ze data musia byt uchovavane "nie dlhsie, ako je nevyhnutne". Subory, ktore "by mohli byt uzitocne", casto zostavam dlho za tento bod.
Preco standardne textove skenovanie zlyha na tabulkach
Nastroje textovej analyzy boli vytvorene pre dokumenty. Na tabulkach zlyhavaju niekolkymi bezn ymi sposobmi.
Problem s RCP ako cislom
Excel uklada rodne cisla poistenca bez pomlciek (123456789) ako ciste cisla - nie text. Skener navrhnuty na hladanie vzoru ###-##-#### ich prehliadne. Dobry nastroj musi vediet, ze 9-cislicove cislo v stlpci nazvanom "RCP" je rodne cislo poistenca.
Problem s datumom ako cislom
Excel uklada datumy ako poradove cisla. 6. februar 2024 je ulozeny ako 45329. Export CSV ukaze "45329" v stlpci "Datum narodenia". Skener musi toto cislo premenit na skutocny datum, kym moze hodnotu oznacit.
Problem s castocnym RCP
Niektore systemy zobrazuju iba posledne stiri cislice RCP (*--1234). Plne cislo sa nachadza v uzamknutom stlpci. Ciastocna hodnota musi byt stale anonymizovana - aj ked nevypada ako plne RCP.
Problem s PII vo vzorcoch
Niektore bunky stavaju OOU z inych buniek. Bunka s =CONCATENATE(B2," ",C2) zobrazuje plne meno. Ak vymaze stlpce B a C, toto plne meno je stale viditelne vo bunke so vzorcom. Nastroj, ktory cita iba ulozene hodnoty - nie linky vzorcov - ponecha OOU na mieste.
Problem s viacerymi zositmi
Velky zosit moze mat pat harcov: Zoznam zakaznikov, Objednavky, Poziadavky podpory, Fakturacia a Analytika. Mena zakaznikov sa objavuju na vsetkych piatich. "Jan Novak" v jednom liste musi stat sa rovnakou jednotkou - "PERSON_0047" - v kazdom dalsom. Dva rozne tokeny narusuju vaazby zaznamov.
Hlavicky stlpcov ako signal
Najvetsie zlepsenie pri detekcii OOU v tabulkovych suboroch je analyza hlaviciek stlpcov.
Stlpec nazvan "RCP" hovorri nastroju, ze vsetky hodnoty v tomto stlpci su rodne cisla poistencov. Toto funguje aj ked su hodnoty ciastocne, nezv ycajne formatovane alebo ulozene ako cisla.
| Hlavicka stlpca | Co signalizuje |
|---|---|
| RCP / Rodne cislo / Danove ID | Traktujte 9-cislicove cisla ako RCP |
| Email / E-mail / Emailova adresa | Oznacte aj ciastocne emailove vzory |
| Telefon / Tel / Mobil / Bunka | Prijmite akykolvek format telefonu |
| DAN / Datum narodenia / Narodeniny | Konvertujte poradove cisla na datumy |
| Meno / Priezvisko / Plne meno | Znizit prah pre detekciu mien |
| Adresa / Ulica / Mesto / PSC | Kombinovajte blizke polia polohy |
| ID pacienta / MRN / Cislo zaznamu | Aplikujte vzory zdravotnickych ID |
Kontext stlpca nenahradzuje skenovanie obsahu. Doplna ho. Stlpec nazvan "RCP" so 100 hodnotami: skenovanie obsahu zachyti 99 spravne formatovanych. Kontext stlpca zachyti ten jeden, ktory vypada zvlastne.
Zachovajte strukturu, odstrante mena
Cielom vo vacsine pripadov GDPR v Exceli nie je znicit subor. Je to odstranit osobne udaje pri zachovani castl, ktore robia subor uzitocnym.
Pre subor so zaznamami 15 000 zamestnancov potrebuje pracovnik pre dodrzavanie predpisov:
Odstranit:
- Mena zamestnancov -> tokeny PERSON_XXXX
- RCP -> REDACTED
- Emailove adresy -> REDACTED
- Telefonne cisla -> REDACTED
- Domace adresy -> REDACTED
Ponechat:
- Kody oddeleni
- Pracovne tituly (len vseobecne role)
- Platove pasma (siroke kategorie)
- Skore vykonu (skupinove data)
- Datumy nastupiku (pre statistiku odpracovaych rokov)
- Kody manazerov (ak su pseudonymizovane)
Nastroj, ktory pozna rozdiel medzi "udajmi, ktore identifikuju ludii" a "udajmi, ktore opisuju pracovne miesta", vam da subor, ktory stale funguje pre HR analyzu - a splna pravidla minimalizacie dat GDPR.
Realny pripad: Prevod HR dat pri fusicii a akvizicii
Ziskavajuca spolocnost dostane zaznamy zamestnancov od cielovej firmy: XLSX s 15 000 riadkami a 40 stlpcami. Subor musi ist k externej HR firme na planovanie benefitov. GDPR hovorri, ze zdiela sa mozu len data potrebne pre tuto ulohu.
Pred spracovanim: 40 stlpcov s plnymi menami, RCP, emailmi, domacimi adresami, kontaktmi pre urazky a bankovymi udajmi.
Po spracovani s kontextom stlpcov:
- 12 stlpcov priamo identifikuje ludii (mena, RCP, emaily, telefon, adresy, bankove udaje): nahradene konzistentnymi tokenmi
- 3 stlpce nepriamo identifikuju ludii (ID zamestnanca, kod manazera, kod pracovneho miesta): nahradene pseudonymnymi tokenmi, ktore zodpovedaju v ramci suboru
- 25 stlpcov su agregatne data (platove pasmo, oddelenie, odpracovane roky, trieda): ponechane nezmenene
Cas: 8 minut pre 600 000 buniek
Vystup: Rovnake rozlozenie XLSX, 40 stlpcov, 15 anonymizovanych, 25 nezmenenych
Auditovy log: Zaznam na urovni bunky o kazdef akcii s typom entity, skore spolahllivosti a pouzitym signalov stlpca
HR firma dostane plny dataset pre svoju pracu - bez akychkolvek mien alebo ID. Zaznam o sulade dostane dokaz, ze boli zdielane iba spravne data.
Tato vyzva nie je unikatna pre Excel. Kazdy format suborov zlyha svojskym sposobom. Pozri ako fragmentacia formatov ovplyvnuje detekciu OOU pre prehlad napriec typmi suborov.
Tri pravidla GDPR clanku 5, jeden proces
Strukturovana anonymizacia tabulkovych suborov splna tri pravidla naraz.
Minimalizacia dat (cl. 5(1)(c)): Prijamlatelovi idu iba stlpce potrebne pre ulohu. Identifikacne stlpce su vymazane.
Obmedzenie uchovavania (cl. 5(1)(e)): Povodny subor zostava pre pravne uchovavanie. Cista kopia sa robi na zdielanie - s kratsiou alebo ziadnou potrebou uchovavania.
Integrita a doverinost (cl. 5(1)(f)): Ziadne identifikacne data neopustia kontrolnu zonu. Zdielaju sa iba ciste kopie.
Auditovy log z procesu je tiez vasa dokazov clanku 5(2). Ukazuje, ako bolo kazde pravidlo splnene pre kazdy subor.
Ak vas tim spracovava DSAR alebo velke exporty dat, rovnaka logika plati na urovni API. Pozri ako minimalizacia dat GDPR funguje v API v realnom case.
Pre timy, ktore maju vela prace pod casovym tlakom, pozri davkove spracovanie GDPR DSAR vo velkom meradle pre vzory pracovnych tokov, ktore sa sem tiez hodia.