Zpět na blogGDPR a shoda

Excel a GDPR: Jak anonymizovat tabulky se stovkami...

Excel patří mezi typy dokumentů s nejvyšší hustotou PII v podnikatelském prostředí.

April 21, 20268 min čtení
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Proč je Excel váš nejrizikovější typ dokumentu

Ze všech typů dokumentů, které v podnikovém prostředí hromadí PII, jsou tabulkové procesory z hlediska souladu s GDPR jedny z nejnebezpečnějších.

Nikoli proto, že by byly nejcitlivější — zdravotní záznamy a právní dokumenty jsou pro jednotlivé subjekty údajů zjevně s vyšším rizikem. Ale protože tabulky Excel mají charakteristiky, které je systematicky podléčeny procesy dodržování předpisů:

Objem a rozptyl: Jeden soubor XLSX může obsahovat 50 000 řádků a 100 sloupců. Každá buňka je potenciálním místem výskytu PII. Žádný ruční revizní proces spolehlivě nezvládne tento objem.

Strukturální rozmanitost: Na rozdíl od textových dokumentů (sekvenčních) nebo PDF (stránkově orientovaných) má Excel dvourozměrnou strukturu s kontextem distribuovaným horizontálně (záhlaví sloupců) a vertikálně (vztahy řádků). PII se může vyskytovat kdekoli.

Kritická obchodní data mimo PII smíšená s PII: Platové hodnoty, výkonnostní skóre, kódy oddělení a další legitimní obchodní data existují ve stejné tabulce jako rodná čísla a e-mailové adresy. Nerozlišující anonymizace, která rozmazává data mimo PII, činí tabulku nepoužitelnou.

Dlouhé uchovávání bez kontroly: Zákaznické databáze, registry zaměstnanců a seznamy dodavatelů se hromadí v souborech Excel a jsou często uchovávány roky bez kontroly GDPR. Princip omezení úložiště GDPR (článek 5(1)(e)) vyžaduje, aby data byla uchovávána „ne déle, než je nezbytné" — ale tabulky, které „by mohly být užitečné," mají tendenci přetrvávat na neurčito.

Technické výzvy detekce PII v tabulkách

Standardní přístupy analýzy textu selhávají u tabulek předvídatelnými způsoby:

Problém rodného čísla jako čísla

Americká rodná čísla (SSN) uložená v buňkách Excel bez pomlček (123456789) jsou v Excel uložena jako čísla, nikoli jako text. Analýza textu, která hledá vzor „###-##-####", je přehlédne. Detekce citlivá na formát musí rozpoznat, že 9místné číslo ve sloupci označeném „SSN" je rodné číslo i bez pomlček.

Problém data jako čísla

Excel ukládá data interně jako sériová čísla (1. ledna 1900 = 1; 6. února 2024 = 45329). Buňka zobrazující „02/06/2024" je uložena jako „45329". Analýza exportovaného CSV z Excel může vidět „45329" ve sloupci „Datum narození" — číslo, nikoli datum. Kontextově citlivá detekce musí tuto konverzi zvládnout.

Problém částečného rodného čísla

Některé pracovní postupy dodržování předpisů uchovávají rodná čísla pouze s posledními čtyřmi viditelné číslicemi pro provozní použití (*--1234). Úplné rodné číslo je uloženo v samostatném uzamčeném sloupci pro autorizované uživatele. Anonymizace částečné hodnoty je vyžadována, i když neodpovídá vzorům úplného rodného čísla.

Problém vypočítaného PII

Některé buňky obsahují vzorce, které produkují hodnoty PII z jiných buněk. Buňka s =CONCATENATE(B2," ",C2) může produkovat celé jméno ze sloupců křestního jména a příjmení. Anonymizace sloupců křestního jména a příjmení (B a C) je správná; buňka zřetězení musí být také aktualizována. Nástroje, které analyzují hodnoty buněk bez zohlednění odkazů na vzorce, mohou produkovat tabulky, kde se PII vyskytuje ve výstupech vzorců i po anonymizaci zdrojových buněk.

Problém konzistence více listů

Velký sešit Excel může mít 5 listů: „Seznam zákazníků", „Objednávky", „Lístky podpory", „Fakturace", „Analytika". Jména zákazníků se vyskytují na všech pěti listech. Konzistentní anonymizace vyžaduje, aby stejný zákazník obdržel stejný anonymizační token napříč všemi listy — takže „Jan Novák" v Seznamu zákazníků a „Jan Novák" v Lístcích podpory se oba stanou „PERSON_0047" konzistentně, nikoli dva různé tokeny, které narušují propojení záznamů.

Kontext sloupce jako detekční signál

Nejvýznamnější zlepšení v detekci PII specifické pro tabulky je analýza kontextu záhlaví sloupce.

Princip: sloupec označený „SSN" nebo „Rodné číslo" signalizuje detekčnímu enginu, že všechny hodnoty v tomto sloupci by měly být považovány za rodná čísla, i když jsou jednotlivé hodnoty částečné, formátované odlišně nebo uloženy jako čísla.

Kontextové signály sloupce, které zlepšují přesnost detekce:

Záhlaví sloupceDetekční signál
SSN / Rodné číslo / Daňové IDKontext SSN — 9místná čísla považována za rodná čísla
E-mail / Emailová adresaE-mailový kontext — ověřuje i částečné vzory
Telefon / MobilTelefonní kontext — přijímá různé formátování
Datum nar. / Datum narozeníDatový kontext — převádí sériová čísla na data
Křestní jméno / Příjmení / Celé jménoJmenný kontext — snižuje práh pro detekci NER
Adresa / Ulice / Město / PSČAdresní kontext — kombinuje geografická pole
ID pacienta / MRN / Číslo záznamuKontext zdravotního ID — vzory specifické pro zařízení

Analýza kontextu sloupce nenahrazuje analýzu obsahu — doplňuje ji. Sloupec označený „SSN" se 100 hodnotami detekuje 99 dobře formátovaných rodných čísel prostřednictvím analýzy obsahu; kontext sloupce pomáhá detekovat tu 1 špatně formátovanou nebo částečnou hodnotu.

Požadavek zachování: Anonymizovat PII, zachovat strukturu

Cílem dodržování předpisů pro většinu scénářů GDPR Excel není zničit tabulku — je to odstranit osobní identifikátory při zachování struktury dat, která tabulku činí užitečnou.

Pro tabulku se záznamy zaměstnanců s 15 000 řádky potřebuje pracovník dodržování GDPR:

Anonymizovat:

  • Jména zaměstnanců → tokeny PERSON_XXXX
  • Rodná čísla → REDACTED
  • E-mailové adresy → REDACTED
  • Telefonní čísla → REDACTED
  • Domácí adresy → REDACTED

Zachovat:

  • Kódy oddělení (nikoli osobní identifikátory)
  • Pracovní pozice (obecné role, nikoli individuálně identifikující)
  • Platové skupiny (souhrnné kategorie, nikoli konkrétní částky v některých implementacích)
  • Výkonnostní skóre (statistická data)
  • Data začátku (pro analýzu délky pracovního poměru bez identifikace jednotlivců)
  • Kódy manažerů (pokud jsou manažeři konzistentně pseudonymizováni)

Nástroj, který zachovává rozdíl mezi „věcmi, které identifikují jednotlivce" a „věcmi, které popisují vzory zaměstnání", produkuje tabulku, která zůstává užitečná pro účely HR analytiky a přitom splňuje požadavky na minimalizaci dat a pseudonymizaci.

Případ použití: HR přenos dat při fúzích a akvizicích

Nabývající společnost obdrží záznamy zaměstnanců od nabyté společnosti: XLSX s 15 000 řádky a 40 sloupci. Data musí být sdílena s externím HR konzultantem pro plánování integrace benefitů. GDPR vyžaduje, aby byly sdíleny pouze data nezbytná pro plánování benefitů — platové skupiny, kódy oddělení, délka pracovního poměru, platové třídy — nikoli identifikační informace.

Před anonymizací: 40 sloupců × 15 000 řádků, včetně celých jmen, rodných čísel, e-mailových adres, domácích adres, nouzových kontaktů a bankovních účtů pro mzdy.

Zpracování s detekcí na základě kontextu sloupce:

  • 12 sloupců identifikováno jako přímo identifikující (jména, rodná čísla, e-maily, telefon, adresa, bankovní účet): nahrazení buňka za buňkou konzistentními tokeny
  • 3 sloupce identifikovány jako nepřímo identifikující (ID zaměstnance, kód manažera, jedinečný kód pracovní pozice): nahrazeny pseudonymními tokeny (konzistentními v rámci souboru, neodkazujícími na externí záznamy)
  • 25 sloupců identifikováno jako neidentifikující statistická data (platová skupina, oddělení, délka pracovního poměru, platová třída): zachovány beze změny

Doba zpracování: 8 minut pro 600 000 buněk Výstup: XLSX v původním formátu, 40 sloupců zachováno, 15 sloupců anonymizováno/pseudonymizováno, 25 sloupců beze změny Auditní zpráva: Protokol na úrovni buněk všech 200 000+ akcí anonymizace s typem entity, spolehlivostí a použitým kontextovým signálem sloupce

Pro HR konzultanta: kompletní datová sada pro plánování benefitů bez identifikačních informací. Pro záznam dodržování GDPR: auditní zpráva demonstrující omezení účelu — sdílena byla pouze data nezbytná pro konkrétní úkol.

Požadavky článku 5 GDPR splněné strukturovanou anonymizací

Anonymizace specifická pro tabulky splňuje tři principy článku 5 současně:

Minimalizace dat (čl. 5(1)(c)): Sdíleny jsou pouze sloupce nezbytné pro konkrétní účel; identifikující sloupce jsou anonymizovány.

Omezení úložiště (čl. 5(1)(e)): Původní soubory jsou uchovávány (s identifikačními daty) pro zákonné doby uchovávání; anonymizované verze jsou vytvořeny pro kontexty sdílení s kratšími nebo žádnými požadavky na uchovávání.

Integrita a důvěrnost (čl. 5(1)(f)): Identifikační data odstraněna ze všech sdílených instancí; kontrolní prostředí opouštějí pouze anonymizované verze.

Auditní stopa z procesu anonymizace poskytuje dokumentaci odpovědnosti podle článku 5(2) — prokazující soulad s každým principem pro každou zpracovanou tabulku.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.