Zasto je Excel vas tip datoteke sa najvecim rizikom
Excel datoteke su jedan od najvecih GDPR rizika u vecini preduzeca. Medicinski dosijei mogu nositi osetljivije podatke po redu. Ali tabele brzo gomilaju PII — a timovi za uskladjenost ih cesto propustaju.
Tri stvari otezavaju upravljanje Excel datotekama.
Obim: Jedna XLSX datoteka moze sadrzati 50.000 redova i 100 kolona. To je pet miliona celija. Nikakav rucni pregled ne moze proveriti sve njih.
Restkasti raspored: Tekst tece u jednom smeru. Excel rasporeduje podatke po redovima i kolonama. Licni podaci mogu biti skriveni bilo gde u toj mrezi.
Mesoviti sadrzaj: Platni razredi, sifre odeljenja i sluzbeni stepeni nalaze se u istoj datoteci kao JMBG i email adrese. Brisanje svega cini datoteku beskorisnom.
Dugo cuvanje: Spiskovi zaposlenih i evidencije klijenata ostaju u Excel-u godinama. GDPR clan 5(1)(e) kaze da se podaci moraju cuvati "ne duze nego sto je neophodno." Datoteke koje "mozda budu korisne" cesto ostaju daleko prekovremeno.
Zasto standardno skeniranje teksta ne funkcionise na tabelama
Alati za analizu teksta napravljeni su za dokumente. Na tabelama se lome na nekoliko uobicajenih nacina.
Problem JMBG-a kao broja
Excel cuva Jedinstvene maticne brojeve gradjena bez crtica (1234567890123) kao obicne brojeve — ne kao tekst. Skener napravljen da pronadje ###-##-#### ce ih propustiti. Dobar alat mora znati da 13-cifreni broj u koloni nazvanoj "JMBG" predstavlja licni broj.
Problem datuma kao broja
Excel cuva datume kao serijske brojeve. 6. februar 2024. se cuva kao 45329. CSV izvoz ce prikazati "45329" u koloni "Datum rodjenja". Skener mora konvertovati taj broj u pravi datum pre nego sto moze oznaciti vrednost.
Problem delimicnog JMBG-a
Neki sistemi prikazuju samo poslednjih sest cifara JMBG-a (--1234). Pun broj se nalazi u zastecenoj koloni. Delimicna vrednost i dalje mora biti anonimizovana — cak i ako ne izgleda kao pun JMBG.
Problem PII u formulama
Neke celije grade PII od drugih celija. Celija sa =CONCATENATE(B2," ",C2) prikazuje puno ime. Ako ocistite kolone B i C, to puno ime je i dalje vidljivo u celiji sa formulom. Alat koji cita samo sacuvane vrednosti — ne veze formula — ostavlja PII na mestu.
Problem vise listova
Velika radna sveska moze imati pet listova: Lista klijenata, Narudzbenice, Tiketi podrske, Naplata i Analitika. Imena klijenata se pojavljuju u svim petima. "Jovan Jovovic" na jednom listu mora postati isti token — "PERSON_0047" — na svakom drugom listu. Dva razlicita tokena prekidaju veze izmedju zapisa.
Zaglavlja kolona kao signal
Najvece poboljsanje u detekciji PII u tabelama je analiza zaglavlja kolona.
Kolona nazvana "JMBG" govori alatu da su sve vrednosti u toj koloni maticni brojevi gradjana. Ovo funkcionise cak i ako su vrednosti delimicne, neobicno formatirane ili sacuvane kao brojevi.
| Zaglavlje kolone | Sta oznacava |
|---|---|
| JMBG / Maticni broj / Poreski ID | Tretirati 13-cifrene brojeve kao maticne |
| Email / E-mail / Email adresa | Oznaciti cak i delimicne email obrasce |
| Telefon / Mobilni / Kontakt | Prihvatiti bilo koji format telefona |
| Datum rodjenja / Rodjendan | Konvertovati serijske brojeve u datume |
| Ime / Prezime / Puno ime | Sniziti prag za detekciju imena |
| Adresa / Ulica / Grad / Postanski broj | Kombinovati susedna polja lokacije |
| ID pacijenta / Broj kartona | Primeniti zdravstvene ID obrasce |
Kontekst kolona ne zamenjuje skeniranje sadrzaja. Dodaje mu se. Kolona nazvana "JMBG" sa 100 vrednosti: skeniranje sadrzaja hvata 99 dobro formatiranih. Kontekst kolona hvata onu koja izgleda cudno.
Zadrzite strukturu, uklonite imena
Cilj u vecini Excel GDPR slucajeva nije unistiti datoteku. To je ukloniti licne podatke uz zadrzavanje delova koji cine datoteku korisnom.
Za datoteku sa evidencijama zaposlenih od 15.000 redova, sluzbeniku za uskladjenost je potrebno:
Ukloniti:
- Imena zaposlenih → PERSON_XXXX tokeni
- JMBG-ovi → REDACTED
- Email adrese → REDACTED
- Brojevi telefona → REDACTED
- Kucne adrese → REDACTED
Zadrzati:
- Sifre odeljenja
- Nazivi radnih mesta (samo opste uloge)
- Platni razredi (siroke kategorije)
- Ocene ucinkovitosti (grupni podaci)
- Datumi pocetka (za statistiku staza)
- Sifre menadzera (ako su pseudonimizovane)
Alat koji poznaje razliku izmedju "podataka koji identifikuju ljude" i "podataka koji opisuju poslove" daje vam datoteku koja i dalje funkcionise za HR analizu — i ispunjava GDPR pravila o minimizaciji podataka.
Stvarni slucaj: Prenos HR podataka pri M&A
Kompanija koja preuzima dobija evidencije zaposlenih od ciljne firme: XLSX sa 15.000 redova i 40 kolona. Datoteka mora otici eksternoj HR firmi za planiranje beneficija. GDPR kaze da se mogu deliti samo podaci potrebni za taj zadatak.
Pre obrade: 40 kolona sa punim imenima, JMBG-ovima, emailovima, kucnim adresama, kontaktima za hitne slucajeve i bankovnim podacima.
Nakon obrade zasnovane na kontekstu kolona:
- 12 kolona direktno identifikuju ljude (imena, JMBG-ovi, emailovi, telefon, adrese, bankarski podaci): zamenjeni konzistentnim tokenima
- 3 kolone indirektno identifikuju ljude (ID zaposlenog, sifra menadzera, sifra posla): zamenjeni pseudonimnim tokenima koji se podudaraju unutar datoteke
- 25 kolona su agregatni podaci (platni razred, odeljenje, staz, ocena): ostavljene nepromenjenima
Vreme: 8 minuta za 600.000 celija
Izlaz: Isti XLSX raspored, 40 kolona, 15 anonimizovano, 25 nepromenjena
Evidencioni trag: Zapis na nivou celije svake akcije sa tipom entiteta, skorom pouzdanosti i koriscenim signalom kolone
HR firma dobija pun skup podataka za svoj rad — bez imena ili ID-ova. Evidencija uskladjenosti dobija dokaz da su samo pravi podaci deljeni.
Ovaj izazov nije jedinstven za Excel. Svaki format datoteke propada na sopstveni nacin. Pogledajte kako fragmentacija formata utice na detekciju PII za pregled svih tipova datoteka.
Tri pravila GDPR clana 5, jedan proces
Strukturisana anonimizacija tabela ispunjava tri pravila odjednom.
Minimizacija podataka (cl. 5(1)(c)): Samo kolone potrebne za zadatak idu primaocu. Identifikacione kolone se brisaju.
Ogranicenje skladistenja (cl. 5(1)(e)): Originalna datoteka ostaje za pravnu retenciju. Pravi se cista kopija za deljenje — sa kracim ili bez potrebe za retencijom.
Integritet i poverljivost (cl. 5(1)(f)): Nikakvi identifikacioni podaci ne napustaju kontrolnu zonu. Dele se samo ciste kopije.
Evidencioni trag iz procesa je takodje vas dokaz prema clanu 5(2). Pokazuje kako je svako pravilo ispunjeno za svaku datoteku.
Ako vas tim obradjuje DSAR ili velike izvoze podataka, ista logika se primenjuje na nivou API-ja. Pogledajte kako minimizacija GDPR podataka funkcionise u API-jima u realnom vremenu.
Za timove koji se bave velikim obimima pod strogim rokovima, pogledajte skupnu GDPR DSAR obradu na velikoj skali za obrasce toka posla koji se ovde primenjuju.