Dlaczego Excel to plik najwyższego ryzyka
Pliki Excel to jedno z największych zagrożeń RODO w większości firm. Dokumentacja medyczna może zawierać więcej wrażliwych danych na wiersz. Ale arkusze kalkulacyjne szybko gromadzą dane osobowe — i zespóły ds. zgodności często je przeoczają.
Trzy rzeczy sprawiają, że pliki Excel są trudne w zarządzaniu.
Wolumen: Jeden plik XLSX może mieć 50 000 wierszy i 100 kolumn. To pięć milionów komórek. Żaden ręczny przegląd nie może sprawdzić ich wszystkich.
Układ siatki: Tekst płynie w jednym kierunku. Excel roзkłada dane w wierszach i kolumnach. Dane osobowe mogą ukrywać się w dowolnym miejscu tej siatki.
Mieszana treść: Przedziały wynagrodzenia, kody działów i klasy stanowisk siedzą w tym samym pliku co numery identyfikacyjne i adresy e-mail. Usunięcie wszystkiego sprawia, że plik staje się bezużyteczny.
Długie okresy przechowywania: Listy pracowników i rekordy klientów pozostają w Excelu latami. Art. 5 ust. 1 lit. e) RODO mówi, że dane muszą być przechowywane „nie dłużej niż jest to niezbędne”. Pliki, które „mogą być przydatne”, często zostają znacznie poza tym terminem.
Dlaczego standardowe skany tekstu zawodzą na arkuszach kalkulacyjnych
Narzędzia do analizy tekstu zostały zbudowane dla dokumentów. Na arkuszach kalkulacyjnych zawodzą na kilka typowych sposobów.
Problem numeru identyfikacyjnego jako liczby
Excel zapisuje numery identyfikacyjne bez myślników jako zwykłe liczby — nie tekst. Skaner zbudowany do wyszukiwania konkretnego wzorca go przeoczy. Dobre narzędzie musi wiedzieć, że wielocyfrowa liczba w kolumnie nazwanej „PESEL” to numer identyfikacyjny.
Problem daty jako liczby
Excel przechowuje daty jako numery seryjne. 6 lutego 2024 r. jest przechowywane jako 45329. Eksport CSV pokaże „45329” w kolumnie „Data urodzenia”. Skaner musi przekonwertować tę liczbę na prawdziwą datę przed jej oznaczeniem.
Problem częściowego identyfikatora
Niektóre systemy pokazują tylko ostatnie cztery cyfry identyfikatora. Pełny numer siedzi w zablokowanej kolumnie. Wartość częściowa musi nadal być anonimizowana — nawet jeśli nie wygląda jak pełny numer.
Problem PII w formule
Niektóre komórki budują dane osobowe z innych komórek. Komórka z =ZŁĄCZ.TEKSTY(B2;" ";C2) pokazuje pełne imię i nazwisko. Jeśli wyczyścisz kolumny B i C, to pełne imię i nazwisko jest nadal widoczne w komórce z formułą. Narzędzie, które czyta tylko przechowywane wartości — nie powiązania formuł — pozostawi dane osobowe na miejscu.
Problem wielu arkuszy
Duży skoroszyt może mieć pięć arkuszy: Lista klientów, Zamówienia, Zgłoszenia wsparcia, Rozliczenia i Analityka. Nazwy klientów pojawiają się we wszystkich pięciu. „Jan Kowalski” na jednym arkuszu musi stać się tym samym tokenem — „PERSON_0047” — na każdym innym arkuszu. Dwa różne tokeny niszczą powiązania rekordów.
Nagłówki kolumn jako sygnał
Najlepsza poprawa w wykrywaniu PII w arkuszach kalkulacyjnych to analiza nagłówków kolumn.
Kolumna o nazwie „PESEL” mówi narzędziu, że wszystkie wartości w tej kolumnie to numery identyfikacyjne. Działa to nawet gdy wartości są częściowe, dziwnie sformatowane lub przechowywane jako liczby.
| Nagłówek kolumny | Co sygnalizuje |
|---|---|
| PESEL / NIP / ID | Traktuj wielocyfrowe liczby jako identyfikatory |
| E-mail / Adres e-mail | Oznaczaj nawet częściowe wzorce e-mail |
| Telefon / Tel. / Komórka | Akceptuj dowolny format telefonu |
| Data ur. / Data urodzenia | Konwertuj numery seryjne na daty |
| Imię / Nazwisko / Imię i nazwisko | Obniż próg dla wykrywania imion |
| Adres / Ulica / Miasto / Kod pocztowy | Łącz pobliskie pola lokalizacji |
| ID pacjenta / Nr karty / Nr rekordu | Stosuj wzorce ID opieki zdrowotnej |
Kontekst kolumny nie zastępuje skanowania treści. Uzupełnia go. Kolumna o nazwie „PESEL” ze 100 wartościami: skanowanie treści wyłapuje 99 dobrze sformatowanych. Kontekst kolumny wyłapuje ten jeden, który wygląda dziwnie.
Zachowaj strukturę, usuń dane identyfikujące
Celem w większości przypadków RODO w Excelu nie jest zniszczenie pliku. Chodzi o usunięcie danych osobowych przy zachowaniu części, które czynią plik użytecznym.
Dla pliku z 15 000 rekordami pracowników pracownik ds. zgodności potrzebuje:
Usunąć:
- Imiona i nazwiska pracowników → tokeny PERSON_XXXX
- Numery PESEL → ZASTRZEŻONE
- Adresy e-mail → ZASTRZEŻONE
- Numery telefonów → ZASTRZEŻONE
- Adresy domowe → ZASTRZEŻONE
Zachować:
- Kody działów
- Stanowiska (tylko ogólne role)
- Przedziały wynagrodzenia (szerokie kategorie)
- Wyniki wydajności (dane grupowe)
- Daty rozpoczęcia (dla statystyk stażu)
- Kody menedżerów (jeśli pseudonimizowane)
Narzędzie, które zna różnicę między „danymi identyfikującymi osoby” a „danymi opisującymi stanowiska”, daje Ci plik, który nadal działa do analiz HR — i spełnia zasadę minimalizacji danych RODO.
Studium przypadku: transfer danych HR przy fuzji i przejęciu
Firma przejmująca otrzymuje dane pracownicze od firmy docelowej: plik XLSX z 15 000 wierszami i 40 kolumnami. Plik musi trafić do zewnętrznej firmy HR do planowania świadczeń. RODO mówi, że można udostępnić tylko dane potrzebne do tego zadania.
Przed przetworzeniem: 40 kolumn z pełnymi imionami i nazwiskami, numerami identyfikacyjnymi, e-mailami, adresami domowymi, kontaktami alarmowymi i danymi bankowymi.
Po przetworzeniu kontekstu kolumnowego:
- 12 kolumn bezpośrednio identyfikuje osoby (imiona, identyfikatory, e-maile, telefony, adresy, dane bankowe): zastąpione spójnymi tokenami
- 3 kolumny pośrednio identyfikuje osoby (ID pracownika, kod menedżera, kod stanowiska): zastąpione pseudonimicznymi tokenami zgodnymi w ramach pliku
- 25 kolumn to dane zagregowane (przedział wynagrodzenia, dział, staż, klasa): pozostawione bez zmian
Czas: 8 minut dla 600 000 komórek
Wynik: Ten sam układ XLSX, 40 kolumn, 15 zanonimizowanych, 25 nitkniętych
Log audytu: Rekord na poziomie komórek każdego działania z typem encji, wynikiem ufności i użytym sygnałem kolumny
Firma HR otrzymuje pełny zestaw danych do swojej pracy — bez imion i nazwisk ani numerów identyfikacyjnych. Rekord zgodności otrzymuje dowód, że udostępniono tylko właściwe dane.
To wyzwanie nie jest unikalne dla Excela. Każdy format pliku zawodzi na swój sposób. Zobacz jak fragmentacja formatów wpływa na wykrywanie PII.
Trzy zasady art. 5 RODO — jeden proces
Strukturyzowana anonimizacja arkuszy kalkulacyjnych spełnia trzy zasady jednocześnie.
Minimalizacja danych (art. 5 ust. 1 lit. c)): Do odbiorcy trafiają tylko kolumny potrzebne do zadania. Kolumny identyfikujące są usuwane.
Ograniczenie przechowywania (art. 5 ust. 1 lit. e)): Oryginalny plik pozostaje do celów prawnego przechowywania. Czysta kopia jest tworzona do udostępnienia — z krótszym lub zerowym wymogiem przechowywania.
Integralność i poufność (art. 5 ust. 1 lit. f)): żadne dane identyfikujące nie opuszczają strefy kontroli. Udostępniane są tylko czyste kopie.
Log audytu z procesu to również Twój dowód z art. 5 ust. 2. Pokazuje, jak każda zasada została spełniona dla każdego pliku.
Jeśli Twój zespół obsługuje DSAR lub duże eksporty danych, ta sama logika stosuje się na poziomie API. Zobacz jak minimalizacja danych RODO działa w API w czasie rzeczywistym.
Dla zespółów radzących sobie z dużymi wolumenami w napiętych terminach, zapoznaj się z wsadowym przetwarzaniem DSAR zgodnie z RODO.