By · Last updated 2026-06-05

Powrót do blogaGDPR i zgodność

PII w Excelu: anonimizacja setek kolumn zgodnie z RODO

Excel to jeden z najbardziej nasyconych danymi osobowymi typów dokumentów w działalności biznesowej. Dlaczego standardowa analiza tekstu zawodzi na arkuszach kalkulacyjnych i co zapewnia kontekst kolumnowy.

June 5, 20268 min czytania
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Dlaczego Excel to plik najwyższego ryzyka

Pliki Excel to jedno z największych zagrożeń RODO w większości firm. Dokumentacja medyczna może zawierać więcej wrażliwych danych na wiersz. Ale arkusze kalkulacyjne szybko gromadzą dane osobowe — i zespóły ds. zgodności często je przeoczają.

Trzy rzeczy sprawiają, że pliki Excel są trudne w zarządzaniu.

Wolumen: Jeden plik XLSX może mieć 50 000 wierszy i 100 kolumn. To pięć milionów komórek. Żaden ręczny przegląd nie może sprawdzić ich wszystkich.

Układ siatki: Tekst płynie w jednym kierunku. Excel roзkłada dane w wierszach i kolumnach. Dane osobowe mogą ukrywać się w dowolnym miejscu tej siatki.

Mieszana treść: Przedziały wynagrodzenia, kody działów i klasy stanowisk siedzą w tym samym pliku co numery identyfikacyjne i adresy e-mail. Usunięcie wszystkiego sprawia, że plik staje się bezużyteczny.

Długie okresy przechowywania: Listy pracowników i rekordy klientów pozostają w Excelu latami. Art. 5 ust. 1 lit. e) RODO mówi, że dane muszą być przechowywane „nie dłużej niż jest to niezbędne”. Pliki, które „mogą być przydatne”, często zostają znacznie poza tym terminem.

Dlaczego standardowe skany tekstu zawodzą na arkuszach kalkulacyjnych

Narzędzia do analizy tekstu zostały zbudowane dla dokumentów. Na arkuszach kalkulacyjnych zawodzą na kilka typowych sposobów.

Problem numeru identyfikacyjnego jako liczby

Excel zapisuje numery identyfikacyjne bez myślników jako zwykłe liczby — nie tekst. Skaner zbudowany do wyszukiwania konkretnego wzorca go przeoczy. Dobre narzędzie musi wiedzieć, że wielocyfrowa liczba w kolumnie nazwanej „PESEL” to numer identyfikacyjny.

Problem daty jako liczby

Excel przechowuje daty jako numery seryjne. 6 lutego 2024 r. jest przechowywane jako 45329. Eksport CSV pokaże „45329” w kolumnie „Data urodzenia”. Skaner musi przekonwertować tę liczbę na prawdziwą datę przed jej oznaczeniem.

Problem częściowego identyfikatora

Niektóre systemy pokazują tylko ostatnie cztery cyfry identyfikatora. Pełny numer siedzi w zablokowanej kolumnie. Wartość częściowa musi nadal być anonimizowana — nawet jeśli nie wygląda jak pełny numer.

Problem PII w formule

Niektóre komórki budują dane osobowe z innych komórek. Komórka z =ZŁĄCZ.TEKSTY(B2;" ";C2) pokazuje pełne imię i nazwisko. Jeśli wyczyścisz kolumny B i C, to pełne imię i nazwisko jest nadal widoczne w komórce z formułą. Narzędzie, które czyta tylko przechowywane wartości — nie powiązania formuł — pozostawi dane osobowe na miejscu.

Problem wielu arkuszy

Duży skoroszyt może mieć pięć arkuszy: Lista klientów, Zamówienia, Zgłoszenia wsparcia, Rozliczenia i Analityka. Nazwy klientów pojawiają się we wszystkich pięciu. „Jan Kowalski” na jednym arkuszu musi stać się tym samym tokenem — „PERSON_0047” — na każdym innym arkuszu. Dwa różne tokeny niszczą powiązania rekordów.

Nagłówki kolumn jako sygnał

Najlepsza poprawa w wykrywaniu PII w arkuszach kalkulacyjnych to analiza nagłówków kolumn.

Kolumna o nazwie „PESEL” mówi narzędziu, że wszystkie wartości w tej kolumnie to numery identyfikacyjne. Działa to nawet gdy wartości są częściowe, dziwnie sformatowane lub przechowywane jako liczby.

Nagłówek kolumnyCo sygnalizuje
PESEL / NIP / IDTraktuj wielocyfrowe liczby jako identyfikatory
E-mail / Adres e-mailOznaczaj nawet częściowe wzorce e-mail
Telefon / Tel. / KomórkaAkceptuj dowolny format telefonu
Data ur. / Data urodzeniaKonwertuj numery seryjne na daty
Imię / Nazwisko / Imię i nazwiskoObniż próg dla wykrywania imion
Adres / Ulica / Miasto / Kod pocztowyŁącz pobliskie pola lokalizacji
ID pacjenta / Nr karty / Nr rekorduStosuj wzorce ID opieki zdrowotnej

Kontekst kolumny nie zastępuje skanowania treści. Uzupełnia go. Kolumna o nazwie „PESEL” ze 100 wartościami: skanowanie treści wyłapuje 99 dobrze sformatowanych. Kontekst kolumny wyłapuje ten jeden, który wygląda dziwnie.

Zachowaj strukturę, usuń dane identyfikujące

Celem w większości przypadków RODO w Excelu nie jest zniszczenie pliku. Chodzi o usunięcie danych osobowych przy zachowaniu części, które czynią plik użytecznym.

Dla pliku z 15 000 rekordami pracowników pracownik ds. zgodności potrzebuje:

Usunąć:

  • Imiona i nazwiska pracowników → tokeny PERSON_XXXX
  • Numery PESEL → ZASTRZEŻONE
  • Adresy e-mail → ZASTRZEŻONE
  • Numery telefonów → ZASTRZEŻONE
  • Adresy domowe → ZASTRZEŻONE

Zachować:

  • Kody działów
  • Stanowiska (tylko ogólne role)
  • Przedziały wynagrodzenia (szerokie kategorie)
  • Wyniki wydajności (dane grupowe)
  • Daty rozpoczęcia (dla statystyk stażu)
  • Kody menedżerów (jeśli pseudonimizowane)

Narzędzie, które zna różnicę między „danymi identyfikującymi osoby” a „danymi opisującymi stanowiska”, daje Ci plik, który nadal działa do analiz HR — i spełnia zasadę minimalizacji danych RODO.

Studium przypadku: transfer danych HR przy fuzji i przejęciu

Firma przejmująca otrzymuje dane pracownicze od firmy docelowej: plik XLSX z 15 000 wierszami i 40 kolumnami. Plik musi trafić do zewnętrznej firmy HR do planowania świadczeń. RODO mówi, że można udostępnić tylko dane potrzebne do tego zadania.

Przed przetworzeniem: 40 kolumn z pełnymi imionami i nazwiskami, numerami identyfikacyjnymi, e-mailami, adresami domowymi, kontaktami alarmowymi i danymi bankowymi.

Po przetworzeniu kontekstu kolumnowego:

  • 12 kolumn bezpośrednio identyfikuje osoby (imiona, identyfikatory, e-maile, telefony, adresy, dane bankowe): zastąpione spójnymi tokenami
  • 3 kolumny pośrednio identyfikuje osoby (ID pracownika, kod menedżera, kod stanowiska): zastąpione pseudonimicznymi tokenami zgodnymi w ramach pliku
  • 25 kolumn to dane zagregowane (przedział wynagrodzenia, dział, staż, klasa): pozostawione bez zmian

Czas: 8 minut dla 600 000 komórek

Wynik: Ten sam układ XLSX, 40 kolumn, 15 zanonimizowanych, 25 nitkniętych

Log audytu: Rekord na poziomie komórek każdego działania z typem encji, wynikiem ufności i użytym sygnałem kolumny

Firma HR otrzymuje pełny zestaw danych do swojej pracy — bez imion i nazwisk ani numerów identyfikacyjnych. Rekord zgodności otrzymuje dowód, że udostępniono tylko właściwe dane.

To wyzwanie nie jest unikalne dla Excela. Każdy format pliku zawodzi na swój sposób. Zobacz jak fragmentacja formatów wpływa na wykrywanie PII.

Trzy zasady art. 5 RODO — jeden proces

Strukturyzowana anonimizacja arkuszy kalkulacyjnych spełnia trzy zasady jednocześnie.

Minimalizacja danych (art. 5 ust. 1 lit. c)): Do odbiorcy trafiają tylko kolumny potrzebne do zadania. Kolumny identyfikujące są usuwane.

Ograniczenie przechowywania (art. 5 ust. 1 lit. e)): Oryginalny plik pozostaje do celów prawnego przechowywania. Czysta kopia jest tworzona do udostępnienia — z krótszym lub zerowym wymogiem przechowywania.

Integralność i poufność (art. 5 ust. 1 lit. f)): żadne dane identyfikujące nie opuszczają strefy kontroli. Udostępniane są tylko czyste kopie.

Log audytu z procesu to również Twój dowód z art. 5 ust. 2. Pokazuje, jak każda zasada została spełniona dla każdego pliku.

Jeśli Twój zespół obsługuje DSAR lub duże eksporty danych, ta sama logika stosuje się na poziomie API. Zobacz jak minimalizacja danych RODO działa w API w czasie rzeczywistym.

Dla zespółów radzących sobie z dużymi wolumenami w napiętych terminach, zapoznaj się z wsadowym przetwarzaniem DSAR zgodnie z RODO.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.