By · Last updated 2026-06-05

Späť na blogGDPR a Dodržiavanie

PII v Exceli: Anonymizujte stovky stlpcov

Excelove subory patria medzi najhustejsie typy dokumentov obsahujucich OOU v podnikatelskych operaciach. Tu je dovod, preco standardna textova analyza zlyha na tabulkach a co ponuka analyza kontextu stlpcov.

June 5, 20268 min čítania
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Preco je Excel vasa najrizikovejsia typova pripona

Excelove subory predstavuju jedno z najvacsich rizik GDPR vo vacsine firiem. Zdravotne zaznamy mozu obsahovat citlivejsie data na riadok. Ale tabulkove subory rychlo hromadia OOU - a timy pre dodrzavanie predpisov ich casto prehliadnu.

Tri veci robia Excelove subory tazko spravovatelne.

Objem: Jeden subor XLSX moze obsahovat 50 000 riadkov a 100 stlpcov. To je pat milionu buniek. Ziadna manualna kontrola nemoze skontrolovat vsetky.

Mriezkovite rozlozenie: Text plynie jednym smerom. Excel rozklada data po riadkoch a stlpcoch. Osobne udaje sa mozu ukryt kdekovek v tejto mriezke.

Zmieszany obsah: Platove pasma, kody oddeleni a pracovne triedy su v tom istom subore ako cisla socialneho poistenia a emailove adresy. Vymazanie vsetkeho robi subor nepouitielnym.

Dlhe uchovavanie: Zoznamy zamestnancov a zaznamy zakaznikov zostavam v Exceli roky. GDPR clanok 5(1)(e) hovorri, ze data musia byt uchovavane "nie dlhsie, ako je nevyhnutne". Subory, ktore "by mohli byt uzitocne", casto zostavam dlho za tento bod.

Preco standardne textove skenovanie zlyha na tabulkach

Nastroje textovej analyzy boli vytvorene pre dokumenty. Na tabulkach zlyhavaju niekolkymi bezn ymi sposobmi.

Problem s RCP ako cislom

Excel uklada rodne cisla poistenca bez pomlciek (123456789) ako ciste cisla - nie text. Skener navrhnuty na hladanie vzoru ###-##-#### ich prehliadne. Dobry nastroj musi vediet, ze 9-cislicove cislo v stlpci nazvanom "RCP" je rodne cislo poistenca.

Problem s datumom ako cislom

Excel uklada datumy ako poradove cisla. 6. februar 2024 je ulozeny ako 45329. Export CSV ukaze "45329" v stlpci "Datum narodenia". Skener musi toto cislo premenit na skutocny datum, kym moze hodnotu oznacit.

Problem s castocnym RCP

Niektore systemy zobrazuju iba posledne stiri cislice RCP (*--1234). Plne cislo sa nachadza v uzamknutom stlpci. Ciastocna hodnota musi byt stale anonymizovana - aj ked nevypada ako plne RCP.

Problem s PII vo vzorcoch

Niektore bunky stavaju OOU z inych buniek. Bunka s =CONCATENATE(B2," ",C2) zobrazuje plne meno. Ak vymaze stlpce B a C, toto plne meno je stale viditelne vo bunke so vzorcom. Nastroj, ktory cita iba ulozene hodnoty - nie linky vzorcov - ponecha OOU na mieste.

Problem s viacerymi zositmi

Velky zosit moze mat pat harcov: Zoznam zakaznikov, Objednavky, Poziadavky podpory, Fakturacia a Analytika. Mena zakaznikov sa objavuju na vsetkych piatich. "Jan Novak" v jednom liste musi stat sa rovnakou jednotkou - "PERSON_0047" - v kazdom dalsom. Dva rozne tokeny narusuju vaazby zaznamov.

Hlavicky stlpcov ako signal

Najvetsie zlepsenie pri detekcii OOU v tabulkovych suboroch je analyza hlaviciek stlpcov.

Stlpec nazvan "RCP" hovorri nastroju, ze vsetky hodnoty v tomto stlpci su rodne cisla poistencov. Toto funguje aj ked su hodnoty ciastocne, nezv ycajne formatovane alebo ulozene ako cisla.

Hlavicka stlpcaCo signalizuje
RCP / Rodne cislo / Danove IDTraktujte 9-cislicove cisla ako RCP
Email / E-mail / Emailova adresaOznacte aj ciastocne emailove vzory
Telefon / Tel / Mobil / BunkaPrijmite akykolvek format telefonu
DAN / Datum narodenia / NarodeninyKonvertujte poradove cisla na datumy
Meno / Priezvisko / Plne menoZnizit prah pre detekciu mien
Adresa / Ulica / Mesto / PSCKombinovajte blizke polia polohy
ID pacienta / MRN / Cislo zaznamuAplikujte vzory zdravotnickych ID

Kontext stlpca nenahradzuje skenovanie obsahu. Doplna ho. Stlpec nazvan "RCP" so 100 hodnotami: skenovanie obsahu zachyti 99 spravne formatovanych. Kontext stlpca zachyti ten jeden, ktory vypada zvlastne.

Zachovajte strukturu, odstrante mena

Cielom vo vacsine pripadov GDPR v Exceli nie je znicit subor. Je to odstranit osobne udaje pri zachovani castl, ktore robia subor uzitocnym.

Pre subor so zaznamami 15 000 zamestnancov potrebuje pracovnik pre dodrzavanie predpisov:

Odstranit:

  • Mena zamestnancov -> tokeny PERSON_XXXX
  • RCP -> REDACTED
  • Emailove adresy -> REDACTED
  • Telefonne cisla -> REDACTED
  • Domace adresy -> REDACTED

Ponechat:

  • Kody oddeleni
  • Pracovne tituly (len vseobecne role)
  • Platove pasma (siroke kategorie)
  • Skore vykonu (skupinove data)
  • Datumy nastupiku (pre statistiku odpracovaych rokov)
  • Kody manazerov (ak su pseudonymizovane)

Nastroj, ktory pozna rozdiel medzi "udajmi, ktore identifikuju ludii" a "udajmi, ktore opisuju pracovne miesta", vam da subor, ktory stale funguje pre HR analyzu - a splna pravidla minimalizacie dat GDPR.

Realny pripad: Prevod HR dat pri fusicii a akvizicii

Ziskavajuca spolocnost dostane zaznamy zamestnancov od cielovej firmy: XLSX s 15 000 riadkami a 40 stlpcami. Subor musi ist k externej HR firme na planovanie benefitov. GDPR hovorri, ze zdiela sa mozu len data potrebne pre tuto ulohu.

Pred spracovanim: 40 stlpcov s plnymi menami, RCP, emailmi, domacimi adresami, kontaktmi pre urazky a bankovymi udajmi.

Po spracovani s kontextom stlpcov:

  • 12 stlpcov priamo identifikuje ludii (mena, RCP, emaily, telefon, adresy, bankove udaje): nahradene konzistentnymi tokenmi
  • 3 stlpce nepriamo identifikuju ludii (ID zamestnanca, kod manazera, kod pracovneho miesta): nahradene pseudonymnymi tokenmi, ktore zodpovedaju v ramci suboru
  • 25 stlpcov su agregatne data (platove pasmo, oddelenie, odpracovane roky, trieda): ponechane nezmenene

Cas: 8 minut pre 600 000 buniek

Vystup: Rovnake rozlozenie XLSX, 40 stlpcov, 15 anonymizovanych, 25 nezmenenych

Auditovy log: Zaznam na urovni bunky o kazdef akcii s typom entity, skore spolahllivosti a pouzitym signalov stlpca

HR firma dostane plny dataset pre svoju pracu - bez akychkolvek mien alebo ID. Zaznam o sulade dostane dokaz, ze boli zdielane iba spravne data.

Tato vyzva nie je unikatna pre Excel. Kazdy format suborov zlyha svojskym sposobom. Pozri ako fragmentacia formatov ovplyvnuje detekciu OOU pre prehlad napriec typmi suborov.

Tri pravidla GDPR clanku 5, jeden proces

Strukturovana anonymizacia tabulkovych suborov splna tri pravidla naraz.

Minimalizacia dat (cl. 5(1)(c)): Prijamlatelovi idu iba stlpce potrebne pre ulohu. Identifikacne stlpce su vymazane.

Obmedzenie uchovavania (cl. 5(1)(e)): Povodny subor zostava pre pravne uchovavanie. Cista kopia sa robi na zdielanie - s kratsiou alebo ziadnou potrebou uchovavania.

Integrita a doverinost (cl. 5(1)(f)): Ziadne identifikacne data neopustia kontrolnu zonu. Zdielaju sa iba ciste kopie.

Auditovy log z procesu je tiez vasa dokazov clanku 5(2). Ukazuje, ako bolo kazde pravidlo splnene pre kazdy subor.

Ak vas tim spracovava DSAR alebo velke exporty dat, rovnaka logika plati na urovni API. Pozri ako minimalizacia dat GDPR funguje v API v realnom case.

Pre timy, ktore maju vela prace pod casovym tlakom, pozri davkove spracovanie GDPR DSAR vo velkom meradle pre vzory pracovnych tokov, ktore sa sem tiez hodia.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.