Proč je Excel váš typ dokumentu s nejvyšším rizikem

Ze všech typů dokumentů, v nichž se v podnikovém prostředí hromadí PII, patří tabulky z hlediska souladu s GDPR k nejnebezpečnějším.

Ne proto, že by byly nejcitlivější — záznamy pacientů a právní dokumenty jsou pro jednotlivé subjekty dat zjevně více rizikové. Ale protože Excelové tabulky mají vlastnosti, díky nimž jsou compliance procesy systematicky podceňují:

Objem a rozsah: Jeden soubor XLSX může obsahovat 50 000 řádků a 100 sloupců. Každá buňka je potenciálním místem výskytu PII. Žádný ruční proces přezkumu se s takovým objemem spolehlivě nevyrovná.

Strukturální rozmanitost: Na rozdíl od textových dokumentů (sekvenčních) nebo PDF (stránkových) má Excel dvourozměrnou strukturu s kontextem rozloženým horizontálně (záhlaví sloupců) i vertikálně (vztahy řádků). PII se může vyskytovat kdekoli.

Podniková nekritická data bez PII smíchána s PII: Mzdové tarify, hodnocení výkonu, kódy oddělení a další legitimní podniková data existují ve stejné tabulce jako rodná čísla a e-mailové adresy. Indiskriminátní anonymizace, která rozmaže data bez PII, učiní tabulku nepoužitelnou.

Dlouhé uchování bez přezkumu: Zákaznické databáze, evidency zaměstnanců a seznamy dodavatelů se hromadí v Excelových souborech a jsou často uchovávány roky bez přezkumu GDPR. Princip omezení uložení GDPR (čl. 5 odst. 1 písm. e)) vyžaduje uchování dat „ne déle, než je nezbytné” — ale tabulky, které „by se mohly hodit”, mají tendenci přetrvávat donekonečna.

Technické výzvy detekce PII v tabulkách

Standardní přístupy textové analýzy selhávají na tabulkách předvídatelným způsobem:

Problém rodného čísla jako čísla

Americká čísla sociálního zabezpečení uložená v buňkách Excelu bez pomlček (123456789) jsou Excelem uložena jako čísla, nikoli jako text. Textová analýza hledající vzor ‚###-##-####' je přehlédne. Detekce s ohledem na formát musí rozpoznat, že devítimístné číslo ve sloupci označeném ‚RČ' je rodné číslo, i bez pomlček.

Problém data jako čísla

Excel ukládá data interně jako sériová čísla (1. ledna 1900 = 1; 6. února 2024 = 45329). Buňka zobrazující ‚06.02.2024' je uložena jako ‚45329'. Analýza CSV exportovaného z Excelu může ve sloupci ‚Datum narození' vidět ‚45329' — číslo, nikoli datum. Detekce s ohledem na kontext musí zvládnout tuto konverzi.

Problém částečného rodného čísla

Některé compliance pracovní postupy ukládají rodná čísla s viditelnými pouze posledními čtyřmi ciframi pro provozní použití (*--1234). Úplné číslo je uloženo v samostatném zamčeném sloupci pro oprávněné uživatele. Anonymizace částečné hodnoty je vyžadována, i když neodpovídá vzorům úplného rodného čísla.

Problém vypočítaného PII

Některé buňky obsahují vzorce, které produkují hodnoty PII z jiných buněk. Buňka s =CONCATENATE(B2;" ";C2) může produkovat celé jméno ze sloupců křestního a příjmení. Anonymizace sloupců křestního a příjmení (B a C) je správná; buňka s konkatenací musí být také aktualizována. Nástroje, které analyzují hodnoty buněk bez zohlednění odkazů ve vzorcích, mohou produkovat tabulky, kde se PII objevuje ve výstupech vzorců i po anonymizaci zdrojových buněk.

Problém konzistence ve více listech

Velký Excelový sešit může mít 5 listů: ‚Seznam zákazníků', ‚Objednávky', ‚Žádosti o podporu', ‚Fakturace', ‚Analytika'. Jména zákazníků se vyskytují ve všech pěti listech. Konzistentní anonymizace vyžaduje, aby stejný zákazník dostal stejný anonymizační token napříč všemi listy — takže ‚Jan Novák' v Seznamu zákazníků i ‚Jan Novák' v Žádostech o podporu se oba stanou ‚OSOBA_0047', nikoli dvěma různými tokeny, které narušují propojení záznamů.

Kontext sloupce jako detekční signál

Nejvýznamnějším zlepšením v detekci PII specifické pro tabulky je analýza kontextu záhlaví sloupce.

Princip: sloupec označený ‚RČ' nebo ‚Rodné číslo' signalizuje detekčnímu enginu, že všechny hodnoty v daném sloupci mají být považovány za rodná čísla, i když jsou jednotlivé hodnoty částečné, jinak formátované nebo uložené jako čísla.

Signály kontextu sloupce, které zlepšují přesnost detekce:

Záhlaví sloupce	Detekční signál
RČ / Rodné číslo / DIČ	Kontext rodného čísla — devítimístná čísla považována za rodná čísla
E-mail / Email / E-mailová adresa	E-mailový kontext — validuje i částečné vzory
Telefon / Telefonní číslo / Mobil	Kontext telefonu — akceptuje různé formátování
Datum nar. / Datum narození	Kontext data — konvertuje sériová čísla na data
Jméno / Příjmení / Celé jméno	Kontext jména — snižuje práh pro NER detekci
Adresa / Ulice / Město / PSČ	Kontext adresy — kombinuje zeměpisná pole
ID pacienta / Číslo záznamu	Kontext zdravotního ID — vzory specifické pro zařízení

Analýza kontextu sloupce nenahrazuje analýzu obsahu — doplňuje ji. Sloupec označený ‚RČ' se 100 hodnotami detekuje 99 správně formátovaných rodných čísel prostřednictvím analýzy obsahu; kontext sloupce pomáhá detekovat 1 chybně formátovanou nebo částečnou hodnotu.

Požadavek na zachování: Anonymizujte PII, zachovejte strukturu

Compliance cílem pro většinu scénářů Excel GDPR není zničit tabulku — je to odstranit osobní identifikátory a přitom zachovat datovou strukturu, která tabulku činí užitečnou.

Pro tabulku s 15 000 řádky zaměstnaneckých záznamů compliance manažer GDPR potřebuje:

Anonymizovat:

Jména zaměstnanců → tokeny OSOBA_XXXX
Rodná čísla → REDIGOVÁNO
E-mailové adresy → REDIGOVÁNO
Telefonní čísla → REDIGOVÁNO
Domácí adresy → REDIGOVÁNO

Zachovat:

Kódy oddělení (nikoli osobní identifikátory)
Pracovní pozice (obecné role, nikoli individuálně identifikující)
Mzdová pásma (agregované kategorie, nikoli konkrétní částky v některých implementacích)
Hodnocení výkonu (statistická data)
Nástupní data (pro analýzu délky zaměstnání bez identifikace jednotlivců)
Kódy manažerů (pokud jsou manažeři pseudonymizováni konzistentně)

Nástroj, který zachovává rozdíl mezi ‚věcmi, které identifikují jednotlivce' a ‚věcmi, které popisují vzorce zaměstnání', produkuje tabulku, která zůstává užitečná pro účel HR analytiky a zároveň splňuje požadavky minimalizace dat a pseudonymizace.

Případ použití: Přenos dat HR při fúzi a akvizici

Nabývající společnost obdrží záznamy zaměstnanců od nabyté společnosti: XLSX s 15 000 řádky a 40 sloupci. Data musí být sdílena s externím HR konzultantem pro plánování integrace benefitů. GDPR vyžaduje, aby byla sdílena pouze data nezbytná pro plánování benefitů — mzdová pásma, kódy oddělení, délka zaměstnání, pracovní třídy — nikoli identifikační informace.

Před anonymizací: 40 sloupců × 15 000 řádků, včetně celých jmen, rodných čísel, e-mailových adres, domácích adres, kontaktů pro případ nouze a informací o bankovním účtu pro výplatu.

Zpracování s detekcí kontextu sloupce:

12 sloupců identifikováno jako přímo identifikující (jména, RČ, e-maily, telefon, adresa, bankovní účet): náhrada po buňkách konzistentními tokeny
3 sloupce identifikovány jako nepřímo identifikující (ID zaměstnance, kód manažera, jedinečný pracovní kód): nahrazeny pseudonymními tokeny (konzistentní v souboru, nekříženě odkazovatelné na externí záznamy)
25 sloupců identifikováno jako neidentifikující statistická data (mzdové pásmo, oddělení, délka zaměstnání, třída): zachováno beze změny

Čas zpracování: 8 minut pro 600 000 buněk Výstup: XLSX v původním formátu, 40 sloupců zachováno, 15 sloupců anonymizováno/pseudonymizováno, 25 sloupců nezměněno Auditní zpráva: Protokol na úrovni buněk o všech 200 000+ anonymizačních akcích s typem entity, spolehlivostí a použitým signálem kontextu sloupce

Pro HR konzultanta: kompletní dataset pro plánování benefitů bez jakýchkoli identifikačních informací. Pro compliance záznam GDPR: auditní zpráva prokazující omezení účelu — byla sdílena pouze data nezbytná pro konkrétní úkol.

Anonymizace specifická pro tabulky splňuje tři principy čl. 5 současně:

Minimalizace dat (čl. 5 odst. 1 písm. c)): Sdíleny jsou pouze sloupce nezbytné pro konkrétní účel; identifikační sloupce jsou anonymizovány.

Omezení uložení (čl. 5 odst. 1 písm. e)): Původní soubory jsou uchovávány (s identifikačními daty) po zákonné doby uchovávání; anonymizované verze jsou vytvářeny pro sdílené kontexty s kratšími nebo žádnými požadavky na uchování.

Integrita a důvěrnost (čl. 5 odst. 1 písm. f)): Identifikační data jsou odstraněna ze všech instancí sdílení; mimo kontrolované prostředí odcházejí pouze anonymizované verze.

Auditní stopa z anonymizačního procesu poskytuje dokumentaci odpovědnosti podle čl. 5 odst. 2 — prokazuje soulad s každým principem pro každou zpracovanou tabulku.

Zdroje:

Související články

GDPR a shoda

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

PII v Excelu: Anonymizujte stovky sloupců

Proč je Excel váš typ dokumentu s nejvyšším rizikem

Technické výzvy detekce PII v tabulkách

Problém rodného čísla jako čísla

Problém data jako čísla

Problém částečného rodného čísla

Problém vypočítaného PII

Problém konzistence ve více listech

Kontext sloupce jako detekční signál

Požadavek na zachování: Anonymizujte PII, zachovejte strukturu

Případ použití: Přenos dat HR při fúzi a akvizici

Související články

Vlastní PII nástroje selhávají při compliance auditech

Presidio přehlédne více než 220 entit GDPR

Posun konfigurace: Skryté riziko GDPR

Připraveni chránit svá data?

PII v Excelu: Anonymizujte stovky sloupců

Proč je Excel váš typ dokumentu s nejvyšším rizikem

Technické výzvy detekce PII v tabulkách

Problém rodného čísla jako čísla

Problém data jako čísla

Problém částečného rodného čísla

Problém vypočítaného PII

Problém konzistence ve více listech

Kontext sloupce jako detekční signál

Požadavek na zachování: Anonymizujte PII, zachovejte strukturu

Případ použití: Přenos dat HR při fúzi a akvizici

Požadavky čl. 5 GDPR splněné strukturovanou anonymizací

Související články

Vlastní PII nástroje selhávají při compliance auditech

Presidio přehlédne více než 220 entit GDPR

Posun konfigurace: Skryté riziko GDPR

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow