Dlaczego arkusze kalkulacyjne nie są dokumentami
Dokument Word to sekwencyjny strumień tekstowy z metadanymi formatowania. Arkusz kalkulacyjny Excel to relacyjna struktura danych: komórki odwołują się do innych komórek, formuły działają na zakresach komórek, tabele przestawne agregują nazwane zakresy danych, a makra przechodzą przez model obiektów arkusza kalkulacyjnego. Traktowanie pliku Excel jako dokumentu tekstowego do przetworzenia pod kątem wzorców PII — co jest podejściem większości narzędzi do redakcji dokumentów — pomija relacje danych, które definiują rzeczywistą zawartość arkusza kalkulacyjnego.
Rozważmy arkusz analizy klientów. Kolumna A zawiera imiona klientów. Kolumna D zawiera formułę: =VLOOKUP(A2, CustomerTable, 5, FALSE) — wyszukiwanie, które zwraca saldo konta klienta na podstawie jego imienia. Jeśli narzędzie anonimizujące zastępuje imię w kolumnie A, ale nie aktualizuje odniesienia do formuły ani tabeli wyszukiwania, formuła nadal zwraca rzeczywiste saldo konta dla oryginalnego imienia. "Anonimizowany" dokument nadal ujawnia tożsamość oryginalnego klienta poprzez relację danych.
To nie jest hipotetyczny przypadek brzegowy. Pliki Excel w przedsiębiorstwie są zbudowane wokół relacji danych. Anonimowe zastępowanie wartości pojedynczych komórek bez zrozumienia struktury relacyjnej produkuje dokumenty, które wydają się być anonimizowane, ale zachowują oryginalne dane poprzez odniesienia do formuł, pamięci podręczne tabel przestawnych i wyszukiwania między arkuszami.
Wymóg dotyczący udostępniania danych osobowych w GDPR
Artykuł 28 GDPR reguluje udostępnianie danych z przetwórcami: organizacje udostępniające dane osobowe stronom zewnętrznym (konsultantom, dostawcom analitycznym, audytorom) muszą zapewnić odpowiednie zabezpieczenia techniczne. Praktyczne pytanie: jakie zabezpieczenie jest odpowiednie przy udostępnianiu zestawu danych Excel zawierającego 50 000 rekordów klientów zewnętrznemu dostawcy analitycznemu?
Eksport PDF usuwa formuły i produkuje zrzut ekranu — ale eksporty PDF dużych plików Excel często psują złożone formatowanie i nie nadają się do użytku analitycznego. Konwersja do CSV usuwa formuły, tabele przestawne i większość struktury analitycznej. Żadna z opcji nie daje zewnętrznemu dostawcy użytecznego zestawu danych do ich celów analitycznych.
Anonimizacja na poziomie komórek w natywnym formacie Excel — zastępowanie wartości identyfikujących przy jednoczesnym zachowaniu struktury analitycznej — jest jedynym podejściem, które jednocześnie spełnia wymaganie zabezpieczenia GDPR i wymaganie użyteczności biznesowej.
Przetwarzanie w środowisku odizolowanym dla arkuszy kalkulacyjnych obronnych
67% przetargów rządowych i obronnych wskazuje na wymagania dotyczące środowisk odizolowanych (DISA 2024). Wykonawcy obronni pracujący z danymi osobowymi, informacjami logistycznymi lub rekordami zakupów w formacie Excel nie mogą korzystać z narzędzi anonimizujących opartych na chmurze z tych samych powodów, które zabraniają przetwarzania dokumentów w chmurze: dane nie mogą opuszczać kontrolowanej sieci.
Połączenie możliwości anonimizacji specyficznych dla Excela i przetwarzania tylko lokalnego tworzy profil techniczny wymagany do zgodności z umowami rządowymi. Aplikacja Desktop przetwarza pliki Excel lokalnie bez wywołań sieciowych podczas przetwarzania; wyniki anonimizacji nigdy nie opuszczają środowiska odizolowanego; przetworzone pliki są dostępne do wewnętrznego udostępniania w kontrolowanej sieci.
Inteligencja na poziomie komórek
Skuteczna anonimizacja Excela działa na trzech poziomach jednocześnie:
Poziom wartości: Wykrywanie i zastępowanie wartości PII w poszczególnych komórkach. Imiona klientów, adresy e-mail, numery telefonów i numery identyfikacyjne są identyfikowane za pomocą tego samego hybrydowego silnika wykrywania, który jest używany do przetwarzania dokumentów.
Poziom formuły: Identyfikowanie komórek, których formuły odwołują się do komórek zawierających PII, oraz aktualizowanie tych odniesień, aby wskazywały na wartości anonimizowane lub zastępowanie formuły jej obliczonym wynikiem, aby zapobiec ujawnieniu PII na podstawie formuły.
Poziom struktury: Usuwanie pamięci podręcznych danych tabel przestawnych, przetwarzanie ukrytych wierszy i kolumn oraz obsługa kodu makr VBA, który odnosi się do konkretnych adresów komórek lub wartości.
Źródła: