By · Last updated 2026-06-05

Povratak na BlogGDPR & Usklađenost

Excel PII: Anonimizacija stotina stupaca

Excel spisi medu su najgusim vrstama dokumenata s PII-jem u poslovnom okruzenju. Evo zasto standardna analiza teksta ne radi na tablicama i sto analiza konteksta stupca donosi.

June 5, 20268 min čitanja
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Zasto je Excel vasa datoteka s najvecim rizikom

Excel datoteke jedan su od najvecih GDPR rizika u vecini tvrtki. Medicinski zapisi mogu sadrzavati osjetljivije podatke po retku. No tablice brzo akumuliraju PII - i timovi za sukladnost ih cesto previde.

Tri stvari cine Excel datoteke teskima za upravljanje.

Volumen: Jedna XLSX datoteka moze drzati 50.000 redaka i 100 stupaca. To je pet milijuna celija. Niti jedan rucni pregled ne moze sve njih provjeriti.

Raspored mreze: Tekst tece u jednom smjeru. Excel siri podatke po recima i stupcima. Osobni podaci mogu se skrivati bilo gdje u toj mrezi.

Mijesani sadrzaj: Platne skale, kodovi odjela i razredi radnog mjesta nalaze se u istoj datoteci kao OIB-ovi i adrese e-poste. Brisanje svega cini datoteku beskorisnom.

Dugo zadrzavanje: Popisi zaposlenika i podaci o korisnicima ostaju u Excelu godinama. GDPR clan 5(1)(e) kaze da se podaci moraju cuvati "ne duze nego je potrebno." Datoteke koje "bi mogle biti korisne" cesto ostaju daleko dulje od te tocke.

Zasto standardni tekstualni skenovi ne rade na tablicama

Alati za analizu teksta izgradeni su za dokumente. Kvare se na tablicama na nekoliko uobicajenih nacina.

Problem OIB-a kao broja

Excel pohranjuje maticne brojeve bez crtica (123456789) kao obicne brojeve - ne tekst. Skener izgrадjen za pronalazenje formata ###-##-#### propustit ce ih. Dobar alat mora znati da 9-znamenkasti broj u stupcu zvanom "OIB" jest maticni broj.

Problem datuma kao broja

Excel pohranjuje datume kao serijske brojeve. 6. veljace 2024. pohranjeno je kao 45329. CSV izvoz pokazat ce "45329" u stupcu "Datum rodjenja". Skener mora pretvoriti taj broj u pravi datum prije nego sto moze oznaciti vrijednost.

Problem djelomicnog OIB-a

Neki sustavi prikazuju samo posljednje cetiri znamenke OIB-a (*--1234). Puni broj nalazi se u zakljucanom stupcu. Djelomicna vrijednost mora se i dalje anonimizirati - cak i ako ne izgleda kao puni OIB.

Problem PII-ja u formulama

Neke celije grade PII iz drugih celija. Celija s =CONCATENATE(B2," ",C2) prikazuje puno ime. Ako ocistite stupce B i C, to puno ime je i dalje vidljivo u celiji s formulom. Alat koji cita samo pohranjen vrijednosti - ne veze formula - ostavit ce PII na mjestu.

Problem vise listova

Velika radna knjiga moze imati pet listova: Popis korisnika, Narudzbe, Zahtjevi podrske, Naplata i Analitika. Imena korisnika pojavljuju se u svih pet. "Ivan Horvat" u jednom listu mora postati isti token - "PERSON_0047" - u svakom drugom listu. Dva razlicita tokena kidaju veze zapisa.

Zaglavlja stupaca kao signal

Najbolje poboljsanje u detekciji PII-ja u tablicama je analiza zaglavlja stupaca.

Stupac nazvan "OIB" govori alatu da su sve vrijednosti u tom stupcu maticni brojevi. Ovo radi cak i ako su vrijednosti djelomicne, cudno formatirane ili pohranjene kao brojevi.

Zaglavlje stupcaSto signalizira
OIB / Maticni broj / Porezni IDTretirati 9-znamenkaste brojeve kao maticne brojeve
Email / E-mail / Adresa e-posteOznaciti cak i djelomicne uzorke emaila
Telefon / MobitelPrihvatiti bilo koji format telefona
DOB / Datum rodjenja / RodjendanPretvoriti serijske brojeve u datume
Ime / Prezime / Puno imeSniziti ljestvicu za detekciju imena
Adresa / Ulica / Grad / ZIPKombinirati obliznija polja lokacije
ID pacijenta / MBRPrimijeniti uzorke zdravstvenog ID-a

Kontekst stupca ne zamjenjuje skeniranje sadrzaja. Dodaje mu se. Stupac nazvan "OIB" s 100 vrijednosti: skeniranje sadrzaja hvata 99 dobro formatiranih. Kontekst stupca hvata onu koja izgleda cudno.

Zadrzite strukturu, uklonite imena

Cilj u vecini Excel GDPR slucajeva nije unistiti datoteku. To je ukloniti osobne podatke uz zadrzavanje dijelova koji datoteku cine korisnom.

Za datoteku evidencije zaposlenika s 15.000 redaka, sluzbenik za sukladnost treba:

Ukloniti:

  • Imena zaposlenika - tokeni PERSON_XXXX
  • OIB-ove - REDACTED
  • Adrese e-poste - REDACTED
  • Brojeve telefona - REDACTED
  • Kucne adrese - REDACTED

Zadrzati:

  • Kodove odjela
  • Radna mjesta (samo opce uloge)
  • Platne skale (sire kategorije)
  • Ocjene ucinkovitosti (skupni podaci)
  • Datume pocetka rada (za statistiku radnog staza)
  • Kodove menadzera (ako su pseudonimizirani)

Alat koji zna razliku izmedju "podataka koji imenuju ljude" i "podataka koji opisuju poslove" daje vam datoteku koja i dalje radi za HR analizu - i ispunjava pravila GDPR-a o minimizaciji podataka.

Stvarni slucaj: Prijenos HR podataka pri preuzimanju tvrtke

Tvrtka koja preuzima drugu dobiva evidenciju zaposlenika: XLSX s 15.000 redaka i 40 stupaca. Datoteka mora ici vanjskoj HR tvrtki za planiranje naknada. GDPR kaze da se mogu podijeliti samo podaci potrebni za taj zadatak.

Prije obrade: 40 stupaca s punim imenima, OIB-ovima, emailovima, kucnim adresama, kontaktima za hitne slucajeve i bankovnim podacima.

Nakon obrade s kontekstom stupca:

  • 12 stupaca izravno identificiraju ljude (imena, OIB-ovi, emailovi, telefoni, adrese, bankovni podaci): zamijenjeni dosljednim tokenima
  • 3 stupca neizravno identificiraju ljude (ID zaposlenika, kod menadzera, kod radnog mjesta): zamijenjeni pseudonimnim tokenima koji se podudaraju unutar datoteke
  • 25 stupaca su skupni podaci (platna skala, odjel, radni staz, razred): ostavljeni nepromijenjeni

Vrijeme: 8 minuta za 600.000 celija

Izlaz: Isti XLSX raspored, 40 stupaca, 15 anonimiziranih, 25 nepromijenjenih

Zapisnik revizije: Zapis na razini celije svake radnje s vrstom entiteta, ocjenom pouzdanosti i koristenim signalom stupca

HR tvrtka dobiva cijeli skup podataka za svoj rad - bez ikakvih imena ili ID-ova. Zapis o sukladnosti dobiva dokaz da su dijeljeni samo pravi podaci.

Ovaj izazov nije jedinstven za Excel. Svaki format datoteke kvari se na svoj nacin. Pogledajte kako fragmentacija formata utjece na detekciju PII-ja za pogled na razlicite vrste datoteka.

Tri pravila GDPR-a, clan 5, jedan proces

Strukturirana anonimizacija tablica istovremeno ispunjava tri pravila.

Minimizacija podataka (cl. 5(1)(c)): Primatelju idu samo stupci potrebni za zadatak. Stupci za identifikaciju su izbrisani.

Ogranicenje pohrane (cl. 5(1)(e)): Originalna datoteka ostaje za pravno zadrzavanje. Cista kopija se pravi za dijeljenje - s kracim ili bez potrebe za zadrzavanjem.

Integritet i povjerljivost (cl. 5(1)(f)): Nikakvi identificirajuci podaci ne napustaju zonu kontrole. Dijele se samo ciste kopije.

Zapisnik revizije iz procesa takodje je vas dokaz prema clanu 5(2). Prikazuje kako je svako pravilo ispunjeno za svaku datoteku.

Ako vas tim rukuje DSAR-ovima ili velikim izvozima podataka, ista logika primjenjuje se na razini API-ja. Pogledajte kako minimizacija GDPR podataka radi u API-jima u stvarnom vremenu.

Za timove koji se suocavaju s velikim volumenima pod strogim rokovima, pogledajte GDPR DSAR grupnu obradu u velikom obimu za obrasce tijeka rada koji se ovdje takodje primjenjuju.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.