Zasto je Excel vasa datoteka s najvecim rizikom
Excel datoteke jedan su od najvecih GDPR rizika u vecini tvrtki. Medicinski zapisi mogu sadrzavati osjetljivije podatke po retku. No tablice brzo akumuliraju PII - i timovi za sukladnost ih cesto previde.
Tri stvari cine Excel datoteke teskima za upravljanje.
Volumen: Jedna XLSX datoteka moze drzati 50.000 redaka i 100 stupaca. To je pet milijuna celija. Niti jedan rucni pregled ne moze sve njih provjeriti.
Raspored mreze: Tekst tece u jednom smjeru. Excel siri podatke po recima i stupcima. Osobni podaci mogu se skrivati bilo gdje u toj mrezi.
Mijesani sadrzaj: Platne skale, kodovi odjela i razredi radnog mjesta nalaze se u istoj datoteci kao OIB-ovi i adrese e-poste. Brisanje svega cini datoteku beskorisnom.
Dugo zadrzavanje: Popisi zaposlenika i podaci o korisnicima ostaju u Excelu godinama. GDPR clan 5(1)(e) kaze da se podaci moraju cuvati "ne duze nego je potrebno." Datoteke koje "bi mogle biti korisne" cesto ostaju daleko dulje od te tocke.
Zasto standardni tekstualni skenovi ne rade na tablicama
Alati za analizu teksta izgradeni su za dokumente. Kvare se na tablicama na nekoliko uobicajenih nacina.
Problem OIB-a kao broja
Excel pohranjuje maticne brojeve bez crtica (123456789) kao obicne brojeve - ne tekst. Skener izgrадjen za pronalazenje formata ###-##-#### propustit ce ih. Dobar alat mora znati da 9-znamenkasti broj u stupcu zvanom "OIB" jest maticni broj.
Problem datuma kao broja
Excel pohranjuje datume kao serijske brojeve. 6. veljace 2024. pohranjeno je kao 45329. CSV izvoz pokazat ce "45329" u stupcu "Datum rodjenja". Skener mora pretvoriti taj broj u pravi datum prije nego sto moze oznaciti vrijednost.
Problem djelomicnog OIB-a
Neki sustavi prikazuju samo posljednje cetiri znamenke OIB-a (*--1234). Puni broj nalazi se u zakljucanom stupcu. Djelomicna vrijednost mora se i dalje anonimizirati - cak i ako ne izgleda kao puni OIB.
Problem PII-ja u formulama
Neke celije grade PII iz drugih celija. Celija s =CONCATENATE(B2," ",C2) prikazuje puno ime. Ako ocistite stupce B i C, to puno ime je i dalje vidljivo u celiji s formulom. Alat koji cita samo pohranjen vrijednosti - ne veze formula - ostavit ce PII na mjestu.
Problem vise listova
Velika radna knjiga moze imati pet listova: Popis korisnika, Narudzbe, Zahtjevi podrske, Naplata i Analitika. Imena korisnika pojavljuju se u svih pet. "Ivan Horvat" u jednom listu mora postati isti token - "PERSON_0047" - u svakom drugom listu. Dva razlicita tokena kidaju veze zapisa.
Zaglavlja stupaca kao signal
Najbolje poboljsanje u detekciji PII-ja u tablicama je analiza zaglavlja stupaca.
Stupac nazvan "OIB" govori alatu da su sve vrijednosti u tom stupcu maticni brojevi. Ovo radi cak i ako su vrijednosti djelomicne, cudno formatirane ili pohranjene kao brojevi.
| Zaglavlje stupca | Sto signalizira |
|---|---|
| OIB / Maticni broj / Porezni ID | Tretirati 9-znamenkaste brojeve kao maticne brojeve |
| Email / E-mail / Adresa e-poste | Oznaciti cak i djelomicne uzorke emaila |
| Telefon / Mobitel | Prihvatiti bilo koji format telefona |
| DOB / Datum rodjenja / Rodjendan | Pretvoriti serijske brojeve u datume |
| Ime / Prezime / Puno ime | Sniziti ljestvicu za detekciju imena |
| Adresa / Ulica / Grad / ZIP | Kombinirati obliznija polja lokacije |
| ID pacijenta / MBR | Primijeniti uzorke zdravstvenog ID-a |
Kontekst stupca ne zamjenjuje skeniranje sadrzaja. Dodaje mu se. Stupac nazvan "OIB" s 100 vrijednosti: skeniranje sadrzaja hvata 99 dobro formatiranih. Kontekst stupca hvata onu koja izgleda cudno.
Zadrzite strukturu, uklonite imena
Cilj u vecini Excel GDPR slucajeva nije unistiti datoteku. To je ukloniti osobne podatke uz zadrzavanje dijelova koji datoteku cine korisnom.
Za datoteku evidencije zaposlenika s 15.000 redaka, sluzbenik za sukladnost treba:
Ukloniti:
- Imena zaposlenika - tokeni PERSON_XXXX
- OIB-ove - REDACTED
- Adrese e-poste - REDACTED
- Brojeve telefona - REDACTED
- Kucne adrese - REDACTED
Zadrzati:
- Kodove odjela
- Radna mjesta (samo opce uloge)
- Platne skale (sire kategorije)
- Ocjene ucinkovitosti (skupni podaci)
- Datume pocetka rada (za statistiku radnog staza)
- Kodove menadzera (ako su pseudonimizirani)
Alat koji zna razliku izmedju "podataka koji imenuju ljude" i "podataka koji opisuju poslove" daje vam datoteku koja i dalje radi za HR analizu - i ispunjava pravila GDPR-a o minimizaciji podataka.
Stvarni slucaj: Prijenos HR podataka pri preuzimanju tvrtke
Tvrtka koja preuzima drugu dobiva evidenciju zaposlenika: XLSX s 15.000 redaka i 40 stupaca. Datoteka mora ici vanjskoj HR tvrtki za planiranje naknada. GDPR kaze da se mogu podijeliti samo podaci potrebni za taj zadatak.
Prije obrade: 40 stupaca s punim imenima, OIB-ovima, emailovima, kucnim adresama, kontaktima za hitne slucajeve i bankovnim podacima.
Nakon obrade s kontekstom stupca:
- 12 stupaca izravno identificiraju ljude (imena, OIB-ovi, emailovi, telefoni, adrese, bankovni podaci): zamijenjeni dosljednim tokenima
- 3 stupca neizravno identificiraju ljude (ID zaposlenika, kod menadzera, kod radnog mjesta): zamijenjeni pseudonimnim tokenima koji se podudaraju unutar datoteke
- 25 stupaca su skupni podaci (platna skala, odjel, radni staz, razred): ostavljeni nepromijenjeni
Vrijeme: 8 minuta za 600.000 celija
Izlaz: Isti XLSX raspored, 40 stupaca, 15 anonimiziranih, 25 nepromijenjenih
Zapisnik revizije: Zapis na razini celije svake radnje s vrstom entiteta, ocjenom pouzdanosti i koristenim signalom stupca
HR tvrtka dobiva cijeli skup podataka za svoj rad - bez ikakvih imena ili ID-ova. Zapis o sukladnosti dobiva dokaz da su dijeljeni samo pravi podaci.
Ovaj izazov nije jedinstven za Excel. Svaki format datoteke kvari se na svoj nacin. Pogledajte kako fragmentacija formata utjece na detekciju PII-ja za pogled na razlicite vrste datoteka.
Tri pravila GDPR-a, clan 5, jedan proces
Strukturirana anonimizacija tablica istovremeno ispunjava tri pravila.
Minimizacija podataka (cl. 5(1)(c)): Primatelju idu samo stupci potrebni za zadatak. Stupci za identifikaciju su izbrisani.
Ogranicenje pohrane (cl. 5(1)(e)): Originalna datoteka ostaje za pravno zadrzavanje. Cista kopija se pravi za dijeljenje - s kracim ili bez potrebe za zadrzavanjem.
Integritet i povjerljivost (cl. 5(1)(f)): Nikakvi identificirajuci podaci ne napustaju zonu kontrole. Dijele se samo ciste kopije.
Zapisnik revizije iz procesa takodje je vas dokaz prema clanu 5(2). Prikazuje kako je svako pravilo ispunjeno za svaku datoteku.
Ako vas tim rukuje DSAR-ovima ili velikim izvozima podataka, ista logika primjenjuje se na razini API-ja. Pogledajte kako minimizacija GDPR podataka radi u API-jima u stvarnom vremenu.
Za timove koji se suocavaju s velikim volumenima pod strogim rokovima, pogledajte GDPR DSAR grupnu obradu u velikom obimu za obrasce tijeka rada koji se ovdje takodje primjenjuju.