Dlaczego Excel to plik najwyższego ryzyka

Pliki Excel to jedno z największych zagrożeń RODO w większości firm. Dokumentacja medyczna może zawierać więcej wrażliwych danych na wiersz. Ale arkusze kalkulacyjne szybko gromadzą dane osobowe — i zespóły ds. zgodności często je przeoczają.

Trzy rzeczy sprawiają, że pliki Excel są trudne w zarządzaniu.

Wolumen: Jeden plik XLSX może mieć 50 000 wierszy i 100 kolumn. To pięć milionów komórek. Żaden ręczny przegląd nie może sprawdzić ich wszystkich.

Układ siatki: Tekst płynie w jednym kierunku. Excel roзkłada dane w wierszach i kolumnach. Dane osobowe mogą ukrywać się w dowolnym miejscu tej siatki.

Mieszana treść: Przedziały wynagrodzenia, kody działów i klasy stanowisk siedzą w tym samym pliku co numery identyfikacyjne i adresy e-mail. Usunięcie wszystkiego sprawia, że plik staje się bezużyteczny.

Długie okresy przechowywania: Listy pracowników i rekordy klientów pozostają w Excelu latami. Art. 5 ust. 1 lit. e) RODO mówi, że dane muszą być przechowywane „nie dłużej niż jest to niezbędne”. Pliki, które „mogą być przydatne”, często zostają znacznie poza tym terminem.

Dlaczego standardowe skany tekstu zawodzą na arkuszach kalkulacyjnych

Narzędzia do analizy tekstu zostały zbudowane dla dokumentów. Na arkuszach kalkulacyjnych zawodzą na kilka typowych sposobów.

Problem numeru identyfikacyjnego jako liczby

Excel zapisuje numery identyfikacyjne bez myślników jako zwykłe liczby — nie tekst. Skaner zbudowany do wyszukiwania konkretnego wzorca go przeoczy. Dobre narzędzie musi wiedzieć, że wielocyfrowa liczba w kolumnie nazwanej „PESEL” to numer identyfikacyjny.

Problem daty jako liczby

Excel przechowuje daty jako numery seryjne. 6 lutego 2024 r. jest przechowywane jako 45329. Eksport CSV pokaże „45329” w kolumnie „Data urodzenia”. Skaner musi przekonwertować tę liczbę na prawdziwą datę przed jej oznaczeniem.

Problem częściowego identyfikatora

Niektóre systemy pokazują tylko ostatnie cztery cyfry identyfikatora. Pełny numer siedzi w zablokowanej kolumnie. Wartość częściowa musi nadal być anonimizowana — nawet jeśli nie wygląda jak pełny numer.

Problem PII w formule

Niektóre komórki budują dane osobowe z innych komórek. Komórka z =ZŁĄCZ.TEKSTY(B2;" ";C2) pokazuje pełne imię i nazwisko. Jeśli wyczyścisz kolumny B i C, to pełne imię i nazwisko jest nadal widoczne w komórce z formułą. Narzędzie, które czyta tylko przechowywane wartości — nie powiązania formuł — pozostawi dane osobowe na miejscu.

Problem wielu arkuszy

Duży skoroszyt może mieć pięć arkuszy: Lista klientów, Zamówienia, Zgłoszenia wsparcia, Rozliczenia i Analityka. Nazwy klientów pojawiają się we wszystkich pięciu. „Jan Kowalski” na jednym arkuszu musi stać się tym samym tokenem — „PERSON_0047” — na każdym innym arkuszu. Dwa różne tokeny niszczą powiązania rekordów.

Nagłówki kolumn jako sygnał

Najlepsza poprawa w wykrywaniu PII w arkuszach kalkulacyjnych to analiza nagłówków kolumn.

Kolumna o nazwie „PESEL” mówi narzędziu, że wszystkie wartości w tej kolumnie to numery identyfikacyjne. Działa to nawet gdy wartości są częściowe, dziwnie sformatowane lub przechowywane jako liczby.

Nagłówek kolumny	Co sygnalizuje
PESEL / NIP / ID	Traktuj wielocyfrowe liczby jako identyfikatory
E-mail / Adres e-mail	Oznaczaj nawet częściowe wzorce e-mail
Telefon / Tel. / Komórka	Akceptuj dowolny format telefonu
Data ur. / Data urodzenia	Konwertuj numery seryjne na daty
Imię / Nazwisko / Imię i nazwisko	Obniż próg dla wykrywania imion
Adres / Ulica / Miasto / Kod pocztowy	Łącz pobliskie pola lokalizacji
ID pacjenta / Nr karty / Nr rekordu	Stosuj wzorce ID opieki zdrowotnej

Kontekst kolumny nie zastępuje skanowania treści. Uzupełnia go. Kolumna o nazwie „PESEL” ze 100 wartościami: skanowanie treści wyłapuje 99 dobrze sformatowanych. Kontekst kolumny wyłapuje ten jeden, który wygląda dziwnie.

Zachowaj strukturę, usuń dane identyfikujące

Celem w większości przypadków RODO w Excelu nie jest zniszczenie pliku. Chodzi o usunięcie danych osobowych przy zachowaniu części, które czynią plik użytecznym.

Dla pliku z 15 000 rekordami pracowników pracownik ds. zgodności potrzebuje:

Usunąć:

Imiona i nazwiska pracowników → tokeny PERSON_XXXX
Numery PESEL → ZASTRZEŻONE
Adresy e-mail → ZASTRZEŻONE
Numery telefonów → ZASTRZEŻONE
Adresy domowe → ZASTRZEŻONE

Zachować:

Kody działów
Stanowiska (tylko ogólne role)
Przedziały wynagrodzenia (szerokie kategorie)
Wyniki wydajności (dane grupowe)
Daty rozpoczęcia (dla statystyk stażu)
Kody menedżerów (jeśli pseudonimizowane)

Narzędzie, które zna różnicę między „danymi identyfikującymi osoby” a „danymi opisującymi stanowiska”, daje Ci plik, który nadal działa do analiz HR — i spełnia zasadę minimalizacji danych RODO.

Studium przypadku: transfer danych HR przy fuzji i przejęciu

Firma przejmująca otrzymuje dane pracownicze od firmy docelowej: plik XLSX z 15 000 wierszami i 40 kolumnami. Plik musi trafić do zewnętrznej firmy HR do planowania świadczeń. RODO mówi, że można udostępnić tylko dane potrzebne do tego zadania.

Przed przetworzeniem: 40 kolumn z pełnymi imionami i nazwiskami, numerami identyfikacyjnymi, e-mailami, adresami domowymi, kontaktami alarmowymi i danymi bankowymi.

Po przetworzeniu kontekstu kolumnowego:

12 kolumn bezpośrednio identyfikuje osoby (imiona, identyfikatory, e-maile, telefony, adresy, dane bankowe): zastąpione spójnymi tokenami
3 kolumny pośrednio identyfikuje osoby (ID pracownika, kod menedżera, kod stanowiska): zastąpione pseudonimicznymi tokenami zgodnymi w ramach pliku
25 kolumn to dane zagregowane (przedział wynagrodzenia, dział, staż, klasa): pozostawione bez zmian

Czas: 8 minut dla 600 000 komórek

Wynik: Ten sam układ XLSX, 40 kolumn, 15 zanonimizowanych, 25 nitkniętych

Log audytu: Rekord na poziomie komórek każdego działania z typem encji, wynikiem ufności i użytym sygnałem kolumny

Firma HR otrzymuje pełny zestaw danych do swojej pracy — bez imion i nazwisk ani numerów identyfikacyjnych. Rekord zgodności otrzymuje dowód, że udostępniono tylko właściwe dane.

To wyzwanie nie jest unikalne dla Excela. Każdy format pliku zawodzi na swój sposób. Zobacz jak fragmentacja formatów wpływa na wykrywanie PII.

Trzy zasady art. 5 RODO — jeden proces

Strukturyzowana anonimizacja arkuszy kalkulacyjnych spełnia trzy zasady jednocześnie.

Minimalizacja danych (art. 5 ust. 1 lit. c)): Do odbiorcy trafiają tylko kolumny potrzebne do zadania. Kolumny identyfikujące są usuwane.

Ograniczenie przechowywania (art. 5 ust. 1 lit. e)): Oryginalny plik pozostaje do celów prawnego przechowywania. Czysta kopia jest tworzona do udostępnienia — z krótszym lub zerowym wymogiem przechowywania.

Integralność i poufność (art. 5 ust. 1 lit. f)): żadne dane identyfikujące nie opuszczają strefy kontroli. Udostępniane są tylko czyste kopie.

Log audytu z procesu to również Twój dowód z art. 5 ust. 2. Pokazuje, jak każda zasada została spełniona dla każdego pliku.

Jeśli Twój zespół obsługuje DSAR lub duże eksporty danych, ta sama logika stosuje się na poziomie API. Zobacz jak minimalizacja danych RODO działa w API w czasie rzeczywistym.

Dla zespółów radzących sobie z dużymi wolumenami w napiętych terminach, zapoznaj się z wsadowym przetwarzaniem DSAR zgodnie z RODO.

Źródła

Pokrewne artykuły

GDPR i zgodność

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

Rozpocznij bezpłatny okres próbny Zobacz funkcje

PII w Excelu: anonimizacja setek kolumn zgodnie z RODO

Dlaczego Excel to plik najwyższego ryzyka

Dlaczego standardowe skany tekstu zawodzą na arkuszach kalkulacyjnych

Problem numeru identyfikacyjnego jako liczby

Problem daty jako liczby

Problem częściowego identyfikatora

Problem PII w formule

Problem wielu arkuszy

Nagłówki kolumn jako sygnał

Zachowaj strukturę, usuń dane identyfikujące

Studium przypadku: transfer danych HR przy fuzji i przejęciu

Trzy zasady art. 5 RODO — jeden proces

Źródła

Pokrewne artykuły

Własne narzędzia PII oblewają audyty zgodności

Presidio pomija ponad 220 encji GDPR: luka w pokryciu UE

Dryft konfiguracji: ukryte ryzyko RODO

Gotowy, aby chronić swoje dane?

PII w Excelu: anonimizacja setek kolumn zgodnie z RODO

Dlaczego Excel to plik najwyższego ryzyka

Dlaczego standardowe skany tekstu zawodzą na arkuszach kalkulacyjnych

Problem numeru identyfikacyjnego jako liczby

Problem daty jako liczby

Problem częściowego identyfikatora

Problem PII w formule

Problem wielu arkuszy

Nagłówki kolumn jako sygnał

Zachowaj strukturę, usuń dane identyfikujące

Studium przypadku: transfer danych HR przy fuzji i przejęciu

Trzy zasady art. 5 RODO — jeden proces

Źródła

Pokrewne artykuły

Własne narzędzia PII oblewają audyty zgodności

Presidio pomija ponad 220 encji GDPR: luka w pokryciu UE

Dryft konfiguracji: ukryte ryzyko RODO

Gotowy, aby chronić swoje dane?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow