Preco je Excel vasa najrizikovejsia typova pripona

Excelove subory predstavuju jedno z najvacsich rizik GDPR vo vacsine firiem. Zdravotne zaznamy mozu obsahovat citlivejsie data na riadok. Ale tabulkove subory rychlo hromadia OOU - a timy pre dodrzavanie predpisov ich casto prehliadnu.

Tri veci robia Excelove subory tazko spravovatelne.

Objem: Jeden subor XLSX moze obsahovat 50 000 riadkov a 100 stlpcov. To je pat milionu buniek. Ziadna manualna kontrola nemoze skontrolovat vsetky.

Mriezkovite rozlozenie: Text plynie jednym smerom. Excel rozklada data po riadkoch a stlpcoch. Osobne udaje sa mozu ukryt kdekovek v tejto mriezke.

Zmieszany obsah: Platove pasma, kody oddeleni a pracovne triedy su v tom istom subore ako cisla socialneho poistenia a emailove adresy. Vymazanie vsetkeho robi subor nepouitielnym.

Dlhe uchovavanie: Zoznamy zamestnancov a zaznamy zakaznikov zostavam v Exceli roky. GDPR clanok 5(1)(e) hovorri, ze data musia byt uchovavane "nie dlhsie, ako je nevyhnutne". Subory, ktore "by mohli byt uzitocne", casto zostavam dlho za tento bod.

Preco standardne textove skenovanie zlyha na tabulkach

Nastroje textovej analyzy boli vytvorene pre dokumenty. Na tabulkach zlyhavaju niekolkymi bezn ymi sposobmi.

Problem s RCP ako cislom

Excel uklada rodne cisla poistenca bez pomlciek (123456789) ako ciste cisla - nie text. Skener navrhnuty na hladanie vzoru ###-##-#### ich prehliadne. Dobry nastroj musi vediet, ze 9-cislicove cislo v stlpci nazvanom "RCP" je rodne cislo poistenca.

Problem s datumom ako cislom

Excel uklada datumy ako poradove cisla. 6. februar 2024 je ulozeny ako 45329. Export CSV ukaze "45329" v stlpci "Datum narodenia". Skener musi toto cislo premenit na skutocny datum, kym moze hodnotu oznacit.

Problem s castocnym RCP

Niektore systemy zobrazuju iba posledne stiri cislice RCP (*--1234). Plne cislo sa nachadza v uzamknutom stlpci. Ciastocna hodnota musi byt stale anonymizovana - aj ked nevypada ako plne RCP.

Problem s PII vo vzorcoch

Niektore bunky stavaju OOU z inych buniek. Bunka s =CONCATENATE(B2," ",C2) zobrazuje plne meno. Ak vymaze stlpce B a C, toto plne meno je stale viditelne vo bunke so vzorcom. Nastroj, ktory cita iba ulozene hodnoty - nie linky vzorcov - ponecha OOU na mieste.

Problem s viacerymi zositmi

Velky zosit moze mat pat harcov: Zoznam zakaznikov, Objednavky, Poziadavky podpory, Fakturacia a Analytika. Mena zakaznikov sa objavuju na vsetkych piatich. "Jan Novak" v jednom liste musi stat sa rovnakou jednotkou - "PERSON_0047" - v kazdom dalsom. Dva rozne tokeny narusuju vaazby zaznamov.

Hlavicky stlpcov ako signal

Najvetsie zlepsenie pri detekcii OOU v tabulkovych suboroch je analyza hlaviciek stlpcov.

Stlpec nazvan "RCP" hovorri nastroju, ze vsetky hodnoty v tomto stlpci su rodne cisla poistencov. Toto funguje aj ked su hodnoty ciastocne, nezv ycajne formatovane alebo ulozene ako cisla.

Hlavicka stlpca	Co signalizuje
RCP / Rodne cislo / Danove ID	Traktujte 9-cislicove cisla ako RCP
Email / E-mail / Emailova adresa	Oznacte aj ciastocne emailove vzory
Telefon / Tel / Mobil / Bunka	Prijmite akykolvek format telefonu
DAN / Datum narodenia / Narodeniny	Konvertujte poradove cisla na datumy
Meno / Priezvisko / Plne meno	Znizit prah pre detekciu mien
Adresa / Ulica / Mesto / PSC	Kombinovajte blizke polia polohy
ID pacienta / MRN / Cislo zaznamu	Aplikujte vzory zdravotnickych ID

Kontext stlpca nenahradzuje skenovanie obsahu. Doplna ho. Stlpec nazvan "RCP" so 100 hodnotami: skenovanie obsahu zachyti 99 spravne formatovanych. Kontext stlpca zachyti ten jeden, ktory vypada zvlastne.

Zachovajte strukturu, odstrante mena

Cielom vo vacsine pripadov GDPR v Exceli nie je znicit subor. Je to odstranit osobne udaje pri zachovani castl, ktore robia subor uzitocnym.

Pre subor so zaznamami 15 000 zamestnancov potrebuje pracovnik pre dodrzavanie predpisov:

Odstranit:

Mena zamestnancov -> tokeny PERSON_XXXX
RCP -> REDACTED
Emailove adresy -> REDACTED
Telefonne cisla -> REDACTED
Domace adresy -> REDACTED

Ponechat:

Kody oddeleni
Pracovne tituly (len vseobecne role)
Platove pasma (siroke kategorie)
Skore vykonu (skupinove data)
Datumy nastupiku (pre statistiku odpracovaych rokov)
Kody manazerov (ak su pseudonymizovane)

Nastroj, ktory pozna rozdiel medzi "udajmi, ktore identifikuju ludii" a "udajmi, ktore opisuju pracovne miesta", vam da subor, ktory stale funguje pre HR analyzu - a splna pravidla minimalizacie dat GDPR.

Realny pripad: Prevod HR dat pri fusicii a akvizicii

Ziskavajuca spolocnost dostane zaznamy zamestnancov od cielovej firmy: XLSX s 15 000 riadkami a 40 stlpcami. Subor musi ist k externej HR firme na planovanie benefitov. GDPR hovorri, ze zdiela sa mozu len data potrebne pre tuto ulohu.

Pred spracovanim: 40 stlpcov s plnymi menami, RCP, emailmi, domacimi adresami, kontaktmi pre urazky a bankovymi udajmi.

Po spracovani s kontextom stlpcov:

12 stlpcov priamo identifikuje ludii (mena, RCP, emaily, telefon, adresy, bankove udaje): nahradene konzistentnymi tokenmi
3 stlpce nepriamo identifikuju ludii (ID zamestnanca, kod manazera, kod pracovneho miesta): nahradene pseudonymnymi tokenmi, ktore zodpovedaju v ramci suboru
25 stlpcov su agregatne data (platove pasmo, oddelenie, odpracovane roky, trieda): ponechane nezmenene

Cas: 8 minut pre 600 000 buniek

Vystup: Rovnake rozlozenie XLSX, 40 stlpcov, 15 anonymizovanych, 25 nezmenenych

Auditovy log: Zaznam na urovni bunky o kazdef akcii s typom entity, skore spolahllivosti a pouzitym signalov stlpca

HR firma dostane plny dataset pre svoju pracu - bez akychkolvek mien alebo ID. Zaznam o sulade dostane dokaz, ze boli zdielane iba spravne data.

Tato vyzva nie je unikatna pre Excel. Kazdy format suborov zlyha svojskym sposobom. Pozri ako fragmentacia formatov ovplyvnuje detekciu OOU pre prehlad napriec typmi suborov.

Strukturovana anonymizacia tabulkovych suborov splna tri pravidla naraz.

Minimalizacia dat (cl. 5(1)(c)): Prijamlatelovi idu iba stlpce potrebne pre ulohu. Identifikacne stlpce su vymazane.

Obmedzenie uchovavania (cl. 5(1)(e)): Povodny subor zostava pre pravne uchovavanie. Cista kopia sa robi na zdielanie - s kratsiou alebo ziadnou potrebou uchovavania.

Integrita a doverinost (cl. 5(1)(f)): Ziadne identifikacne data neopustia kontrolnu zonu. Zdielaju sa iba ciste kopie.

Auditovy log z procesu je tiez vasa dokazov clanku 5(2). Ukazuje, ako bolo kazde pravidlo splnene pre kazdy subor.

Ak vas tim spracovava DSAR alebo velke exporty dat, rovnaka logika plati na urovni API. Pozri ako minimalizacia dat GDPR funguje v API v realnom case.

Pre timy, ktore maju vela prace pod casovym tlakom, pozri davkove spracovanie GDPR DSAR vo velkom meradle pre vzory pracovnych tokov, ktore sa sem tiez hodia.

Zdroje

Súvisiace články

GDPR a Dodržiavanie

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

Začať bezplatnú skúšobnú verziu Zobraziť funkcie

PII v Exceli: Anonymizujte stovky stlpcov

Preco je Excel vasa najrizikovejsia typova pripona

Preco standardne textove skenovanie zlyha na tabulkach

Problem s RCP ako cislom

Problem s datumom ako cislom

Problem s castocnym RCP

Problem s PII vo vzorcoch

Problem s viacerymi zositmi

Hlavicky stlpcov ako signal

Zachovajte strukturu, odstrante mena

Realny pripad: Prevod HR dat pri fusicii a akvizicii

Zdroje

Súvisiace články

Vlastnohodené PII nástroje zlyhaváajú pri auditoch súladu

Presidio nedetekuje viac ako 220 entít GDPR

Drift konfiguracie: Skryté riziko GDPR

Pripravení chrániť vaše údaje?

PII v Exceli: Anonymizujte stovky stlpcov

Preco je Excel vasa najrizikovejsia typova pripona

Preco standardne textove skenovanie zlyha na tabulkach

Problem s RCP ako cislom

Problem s datumom ako cislom

Problem s castocnym RCP

Problem s PII vo vzorcoch

Problem s viacerymi zositmi

Hlavicky stlpcov ako signal

Zachovajte strukturu, odstrante mena

Realny pripad: Prevod HR dat pri fusicii a akvizicii

Tri pravidla GDPR clanku 5, jeden proces

Zdroje

Súvisiace články

Vlastnohodené PII nástroje zlyhaváajú pri auditoch súladu

Presidio nedetekuje viac ako 220 entít GDPR

Drift konfiguracie: Skryté riziko GDPR

Pripravení chrániť vaše údaje?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow