Zasto je Excel vasa datoteka s najvecim rizikom

Excel datoteke jedan su od najvecih GDPR rizika u vecini tvrtki. Medicinski zapisi mogu sadrzavati osjetljivije podatke po retku. No tablice brzo akumuliraju PII - i timovi za sukladnost ih cesto previde.

Tri stvari cine Excel datoteke teskima za upravljanje.

Volumen: Jedna XLSX datoteka moze drzati 50.000 redaka i 100 stupaca. To je pet milijuna celija. Niti jedan rucni pregled ne moze sve njih provjeriti.

Raspored mreze: Tekst tece u jednom smjeru. Excel siri podatke po recima i stupcima. Osobni podaci mogu se skrivati bilo gdje u toj mrezi.

Mijesani sadrzaj: Platne skale, kodovi odjela i razredi radnog mjesta nalaze se u istoj datoteci kao OIB-ovi i adrese e-poste. Brisanje svega cini datoteku beskorisnom.

Dugo zadrzavanje: Popisi zaposlenika i podaci o korisnicima ostaju u Excelu godinama. GDPR clan 5(1)(e) kaze da se podaci moraju cuvati "ne duze nego je potrebno." Datoteke koje "bi mogle biti korisne" cesto ostaju daleko dulje od te tocke.

Zasto standardni tekstualni skenovi ne rade na tablicama

Alati za analizu teksta izgradeni su za dokumente. Kvare se na tablicama na nekoliko uobicajenih nacina.

Problem OIB-a kao broja

Excel pohranjuje maticne brojeve bez crtica (123456789) kao obicne brojeve - ne tekst. Skener izgrадjen za pronalazenje formata ###-##-#### propustit ce ih. Dobar alat mora znati da 9-znamenkasti broj u stupcu zvanom "OIB" jest maticni broj.

Problem datuma kao broja

Excel pohranjuje datume kao serijske brojeve. 6. veljace 2024. pohranjeno je kao 45329. CSV izvoz pokazat ce "45329" u stupcu "Datum rodjenja". Skener mora pretvoriti taj broj u pravi datum prije nego sto moze oznaciti vrijednost.

Problem djelomicnog OIB-a

Neki sustavi prikazuju samo posljednje cetiri znamenke OIB-a (*--1234). Puni broj nalazi se u zakljucanom stupcu. Djelomicna vrijednost mora se i dalje anonimizirati - cak i ako ne izgleda kao puni OIB.

Problem PII-ja u formulama

Neke celije grade PII iz drugih celija. Celija s =CONCATENATE(B2," ",C2) prikazuje puno ime. Ako ocistite stupce B i C, to puno ime je i dalje vidljivo u celiji s formulom. Alat koji cita samo pohranjen vrijednosti - ne veze formula - ostavit ce PII na mjestu.

Problem vise listova

Velika radna knjiga moze imati pet listova: Popis korisnika, Narudzbe, Zahtjevi podrske, Naplata i Analitika. Imena korisnika pojavljuju se u svih pet. "Ivan Horvat" u jednom listu mora postati isti token - "PERSON_0047" - u svakom drugom listu. Dva razlicita tokena kidaju veze zapisa.

Zaglavlja stupaca kao signal

Najbolje poboljsanje u detekciji PII-ja u tablicama je analiza zaglavlja stupaca.

Stupac nazvan "OIB" govori alatu da su sve vrijednosti u tom stupcu maticni brojevi. Ovo radi cak i ako su vrijednosti djelomicne, cudno formatirane ili pohranjene kao brojevi.

Zaglavlje stupca	Sto signalizira
OIB / Maticni broj / Porezni ID	Tretirati 9-znamenkaste brojeve kao maticne brojeve
Email / E-mail / Adresa e-poste	Oznaciti cak i djelomicne uzorke emaila
Telefon / Mobitel	Prihvatiti bilo koji format telefona
DOB / Datum rodjenja / Rodjendan	Pretvoriti serijske brojeve u datume
Ime / Prezime / Puno ime	Sniziti ljestvicu za detekciju imena
Adresa / Ulica / Grad / ZIP	Kombinirati obliznija polja lokacije
ID pacijenta / MBR	Primijeniti uzorke zdravstvenog ID-a

Kontekst stupca ne zamjenjuje skeniranje sadrzaja. Dodaje mu se. Stupac nazvan "OIB" s 100 vrijednosti: skeniranje sadrzaja hvata 99 dobro formatiranih. Kontekst stupca hvata onu koja izgleda cudno.

Zadrzite strukturu, uklonite imena

Cilj u vecini Excel GDPR slucajeva nije unistiti datoteku. To je ukloniti osobne podatke uz zadrzavanje dijelova koji datoteku cine korisnom.

Za datoteku evidencije zaposlenika s 15.000 redaka, sluzbenik za sukladnost treba:

Ukloniti:

Imena zaposlenika - tokeni PERSON_XXXX
OIB-ove - REDACTED
Adrese e-poste - REDACTED
Brojeve telefona - REDACTED
Kucne adrese - REDACTED

Zadrzati:

Kodove odjela
Radna mjesta (samo opce uloge)
Platne skale (sire kategorije)
Ocjene ucinkovitosti (skupni podaci)
Datume pocetka rada (za statistiku radnog staza)
Kodove menadzera (ako su pseudonimizirani)

Alat koji zna razliku izmedju "podataka koji imenuju ljude" i "podataka koji opisuju poslove" daje vam datoteku koja i dalje radi za HR analizu - i ispunjava pravila GDPR-a o minimizaciji podataka.

Stvarni slucaj: Prijenos HR podataka pri preuzimanju tvrtke

Tvrtka koja preuzima drugu dobiva evidenciju zaposlenika: XLSX s 15.000 redaka i 40 stupaca. Datoteka mora ici vanjskoj HR tvrtki za planiranje naknada. GDPR kaze da se mogu podijeliti samo podaci potrebni za taj zadatak.

Prije obrade: 40 stupaca s punim imenima, OIB-ovima, emailovima, kucnim adresama, kontaktima za hitne slucajeve i bankovnim podacima.

Nakon obrade s kontekstom stupca:

12 stupaca izravno identificiraju ljude (imena, OIB-ovi, emailovi, telefoni, adrese, bankovni podaci): zamijenjeni dosljednim tokenima
3 stupca neizravno identificiraju ljude (ID zaposlenika, kod menadzera, kod radnog mjesta): zamijenjeni pseudonimnim tokenima koji se podudaraju unutar datoteke
25 stupaca su skupni podaci (platna skala, odjel, radni staz, razred): ostavljeni nepromijenjeni

Vrijeme: 8 minuta za 600.000 celija

Izlaz: Isti XLSX raspored, 40 stupaca, 15 anonimiziranih, 25 nepromijenjenih

Zapisnik revizije: Zapis na razini celije svake radnje s vrstom entiteta, ocjenom pouzdanosti i koristenim signalom stupca

HR tvrtka dobiva cijeli skup podataka za svoj rad - bez ikakvih imena ili ID-ova. Zapis o sukladnosti dobiva dokaz da su dijeljeni samo pravi podaci.

Ovaj izazov nije jedinstven za Excel. Svaki format datoteke kvari se na svoj nacin. Pogledajte kako fragmentacija formata utjece na detekciju PII-ja za pogled na razlicite vrste datoteka.

Strukturirana anonimizacija tablica istovremeno ispunjava tri pravila.

Minimizacija podataka (cl. 5(1)(c)): Primatelju idu samo stupci potrebni za zadatak. Stupci za identifikaciju su izbrisani.

Ogranicenje pohrane (cl. 5(1)(e)): Originalna datoteka ostaje za pravno zadrzavanje. Cista kopija se pravi za dijeljenje - s kracim ili bez potrebe za zadrzavanjem.

Integritet i povjerljivost (cl. 5(1)(f)): Nikakvi identificirajuci podaci ne napustaju zonu kontrole. Dijele se samo ciste kopije.

Zapisnik revizije iz procesa takodje je vas dokaz prema clanu 5(2). Prikazuje kako je svako pravilo ispunjeno za svaku datoteku.

Ako vas tim rukuje DSAR-ovima ili velikim izvozima podataka, ista logika primjenjuje se na razini API-ja. Pogledajte kako minimizacija GDPR podataka radi u API-jima u stvarnom vremenu.

Za timove koji se suocavaju s velikim volumenima pod strogim rokovima, pogledajte GDPR DSAR grupnu obradu u velikom obimu za obrasce tijeka rada koji se ovdje takodje primjenjuju.

Izvori

Povezani Članci

GDPR & Usklađenost

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

Započnite Besplatno Suđenje Pogledajte Značajke

Excel PII: Anonimizacija stotina stupaca

Zasto je Excel vasa datoteka s najvecim rizikom

Zasto standardni tekstualni skenovi ne rade na tablicama

Problem OIB-a kao broja

Problem datuma kao broja

Problem djelomicnog OIB-a

Problem PII-ja u formulama

Problem vise listova

Zaglavlja stupaca kao signal

Zadrzite strukturu, uklonite imena

Stvarni slucaj: Prijenos HR podataka pri preuzimanju tvrtke

Izvori

Povezani Članci

Samo-hostirana PII rjesenja ne prolaze revizije uskladivanja

Presidio propusta 220+ GDPR entiteta

Drift konfiguracije: Skriven GDPR rizik

Spremni za zaštitu vaših podataka?

Excel PII: Anonimizacija stotina stupaca

Zasto je Excel vasa datoteka s najvecim rizikom

Zasto standardni tekstualni skenovi ne rade na tablicama

Problem OIB-a kao broja

Problem datuma kao broja

Problem djelomicnog OIB-a

Problem PII-ja u formulama

Problem vise listova

Zaglavlja stupaca kao signal

Zadrzite strukturu, uklonite imena

Stvarni slucaj: Prijenos HR podataka pri preuzimanju tvrtke

Tri pravila GDPR-a, clan 5, jedan proces

Izvori

Povezani Članci

Samo-hostirana PII rjesenja ne prolaze revizije uskladivanja

Presidio propusta 220+ GDPR entiteta

Drift konfiguracije: Skriven GDPR rizik

Spremni za zaštitu vaših podataka?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow