Gdy sieć nie ma wyjścia
Dana analityczka pracuje w firmie z sektora obronnego. Dysponuje 3000 rekordami personalnymi. Musi usunąć imiona i nazwiska, numery PESEL oraz poziomy uprawnień dostępu. Dopiero wtedy może udostępnić dane partnerowi badawczemu w ramach umowy CUI.
Jej sieć nie ma połączenia z internetem. Z założenia.
Testuje każde narzędzie dostępne w sieci. Każde z nich wysyła dane na zewnętrzny serwer. Każda platforma chmurowa wymaga konta i aktywnego połączenia. Nawet narzędzia „lokalne” często łączą się ze zdalnym serwerem licencji.
To właśnie problem wdrożenia w środowisku izolowanym (air-gap). Dotyka on znacznie więcej zespołów, niż się powszechnie sądzi.
Kto potrzebuje lokalnego usuwania PII
Firmy z sektora obronnego i agencje rządowe stają przed tym problemem najczęściej. Program FedRAMP DISA wymaga, aby dane pozostawały w zatwierdzonych granicach sieci. ITAR ogranicza dane techniczne do systemów pod kontrolą USA. Sieci takie jak JWICS i SIPRNet są fizycznie odizolowane z założenia.
Potrzeba trybu offline wykracza jednak daleko poza obiekty niejawne:
Szpitale z segmentowanymi sieciami. Systemy obrazowania PACS, platformy EHR i bazy danych badań naukowych często funkcjonują w sieciach bez internetu — wymaga tego polityka bezpieczeństwa.
Parkiety transakcyjne i izby rozliczeniowe. Własne systemy transakcyjne i systemy podłączone do SWIFT stosują ścisłe izolacje sieciowe.
Przemysłowe systemy sterowania. Sieci SCADA i infrastruktura krytyczna działają z fizyczną izolacją jako podstawowym środkiem bezpieczeństwa. Po Stuxnecie stało się to normą.
Europejskie regulacje dotyczące danych. Krajowe przepisy ochrony danych w Niemczech (Landesdatenschutzgesetze) i podobne unijne akty prawne wymagają lokalnego przetwarzania wrażliwych danych rządowych i medycznych. Kara 530 mln euro nałożona na TikTok na podstawie RODO w maju 2025 r. — za transfer danych do Chin — przyspieszyła przejście kolejnych zespołów na narzędzia lokalne. Zobacz nasze omówienie zgodności z przepisami dotyczące zasad transferu danych na podstawie RODO.
Dlaczego narzędzia chmurowe zawodzą w sieciach izolowanych
Większość narzędzi do usuwania danych stosuje model SaaS:
Urządzenie użytkownika → HTTPS → API dostawcy → Modele NLP → Odpowiedź → Urządzenie użytkownika
Ten model wymaga dostępu do internetu na urządzeniu przetwarzającym dane, zaufania do serwerów dostawcy i przesyłania danych poza sieć wewnętrzną.
W sieci izolowanej pierwszy krok jest fizycznie niemożliwy. W środowiskach regulowanych kroki od drugiego do czwartego mogą samodzielnie naruszać przepisy.
Najczęstszym rozwiązaniem zastępczym jest samodzielnie hostowany Presidio. Wymaga on jednak umiejętności z zakresu Dockera, konfiguracji Pythona, pobrania modeli spaCy (co wymaga internetu) oraz stałego wsparcia IT. Większość zespołów nie dysponuje żadnym z tych zasobów.
Luka między prostotą chmury a złożonością rozwiązań self-hosted to dokładnie ta przestrzeń, którą wypełniają lokalne aplikacje desktopowe.
Jak działa lokalne usuwanie PII
Dobre narzędzie offline zawiera wszystko, czego potrzebuje:
Dołączone modele NLP. Modele spaCy (40–80 MB każdy) oraz modele transformerów do wykrywania encji nazwanych są częścią instalatora. Żadne pobranie nie jest potrzebne w trakcie działania.
Lokalny potok wykrywania. Wyrażenia regularne, NLP i ML działają na lokalnym procesorze — lub GPU, jeśli dostępny. Silnik oparty na Presidio wewnątrz anonym.legal nie wykonuje żadnych połączeń sieciowych podczas pracy.
Zaszyfrowane lokalne repozytorium. Konfiguracje, ustawienia wstępne i klucze są przechowywane lokalnie. Repozytorium wykorzystuje szyfrowanie AES-256-GCM i derywację klucza Argon2id. Brak synchronizacji z chmurą. Brak zdalnej kopii zapasowej. Repozytorium pozostaje na urządzeniu.
Lokalny zapis i odczyt plików. Pliki wejściowe pobierane są z lokalnych zasobów. Pliki wyjściowe trafiają z powrotem do lokalnych zasobów. Żadne dane nie przekraczają żadnego interfejsu sieciowego.
Mała powierzchnia ataku. Aplikacja desktopowa wykorzystuje Tauri 2.0 (oparty na Rust). Tauri ma znacznie mniejszą powierzchnię ataku niż narzędzia oparte na Electron (Chromium). Jego plik binarny jest około dziesięć razy mniejszy i domyślnie wywołuje mniej interfejsów API systemu operacyjnego.
Trzy rzeczywiste scenariusze compliance
Dokumenty ITAR — 500 plików
Firma z sektora obronnego musi udostępnić dokumenty techniczne zagranicznemu partnerowi w ramach wyjątku licencyjnego. Pliki zawierają imiona i nazwiska obywateli USA oraz dane personalne — oba rodzaje informacji muszą zostać usunięte.
Kluczowe wymagania: przetwarzanie wyłącznie na stacjach roboczych posiadających stosowne uprawnienia. Żadne dane nie mogą być wysyłane poza sieć objętą ochroną. Ścieżka audytu dokumentująca wykonaną pracę. Przetwarzanie wsadowe ponad 500 plików.
Aplikacja desktopowa przetwarza wsadowo ponad 500 plików DOCX lokalnie. Podczas pracy nie jest wykonywane żadne połączenie sieciowe. Dziennik audytu pozostaje w lokalnym repozytorium. Wyniki spełniają wymogi wyjątku licencyjnego ITAR.
Niemiecka agencja federalna — dokumenty skargowe
Niemiecka agencja federalna musi usunąć dane osobowe z dokumentów dotyczących skarg obywateli, a następnie przekazać dokumenty do instytutu badawczego. Wytyczne BfDI zakazują przetwarzania na systemach pozarządowych.
Aplikacja desktopowa działa na agencyjnych stacjach roboczych Windows 11. Całe przetwarzanie odbywa się lokalnie. Zespół bezpieczeństwa IT potwierdza to monitoringiem ruchu sieciowego — zero połączeń zewnętrznych podczas pracy.
Badania szpitalne — deidentyfikacja EHR
Zespół badawczy szpitala musi usunąć dane pacjentów z dokumentacji medycznej na potrzeby badania klinicznego. HIPAA Safe Harbor wymaga usunięcia 18 rodzajów identyfikatorów. Sieć kliniczna nie ma dostępu do internetu.
Aplikacja desktopowa obsługuje wsadowe przetwarzanie eksportów EHR w formatach CSV i JSON. Inspektor Ochrony Prywatności weryfikuje wyniki pod kątem wymogów Safe Harbor przed przekazaniem zbioru danych partnerom badawczym.
Na co zwracać uwagę przy wyborze narzędzia offline
| Funkcja | Dlaczego jest ważna |
|---|---|
| W pełni offline po instalacji | Brak zależności od internetu podczas przetwarzania |
| Dołączone modele NLP | Brak konieczności pobierania |
| Przetwarzanie wsadowe | Obsługa dużych wolumenów bez ręcznej pracy |
| Lokalne zaszyfrowane repozytorium | Bezpieczne przechowywanie konfiguracji i kluczy |
| Dziennik audytu | Dokumentacja wymagana przez organy kontrolne |
| Wsparcie dla Windows, macOS, Linux | Pokrycie typów niejawnych stacji roboczych |
| Opcja bez telemetrii | Zapobieganie wysyłaniu danych przez telemetrię |
| Obsługa formatów plików | DOCX, PDF, TXT, CSV, JSON, Excel |
Regulacje prawne skłaniają zespoły ku narzędziom lokalnym
Kara nałożona na TikTok w wysokości 530 mln euro wywołała szerszą falę sankcji. Europejskie zespoły korzystające z narzędzi chmurowych zadają teraz nowe pytanie: czy przetwarzanie danych na serwerach dostawcy spełnia wymogi Rozdziału V RODO i krajowych przepisów o ochronie danych?
Najprostsza odpowiedź na pytanie „dokąd trafiają Twoje dane?” brzmi: nigdzie — nigdy nie opuszczają urządzenia. Przetwarzanie lokalne eliminuje w całości problem transferu danych na gruncie RODO.
Dla zespołów działających na podstawie polskiego UODO i RODO, ścisła wykładnia art. 44–46 czyni przetwarzanie lokalne rozsądnym wyborem — nawet bez ścisłych ograniczeń sieciowych. Nasze omówienie bezpieczeństwa wyjaśnia, jak przetwarzanie lokalne eliminuje łańcuch danych stron trzecich.
Praktyczne uwagi wdrożeniowe
Instalacja na systemach izolowanych. Instalator — Windows .exe lub .msi, macOS .dmg, Linux .AppImage lub .deb — przenosi się do sieci izolowanej przez USB lub bezpieczny transfer plików. Po instalacji internet nie jest potrzebny.
Obsługa języków. 24 modele językowe dostarczane są wraz z aplikacją. Pełny zestaw jest dostępny offline bez dodatkowego pobierania.
Wymagania sprzętowe. Potok NLP działa na nowoczesnych stacjach roboczych bez GPU. Przetwarzanie wsadowe 1000 dokumentów trwa zazwyczaj 5–15 minut, w zależności od rozmiaru dokumentów i wydajności procesora.
Aktywacja licencji offline. Dla sieci, w których serwer licencji jest niedostępny, możliwa jest aktywacja licencji w trybie offline.
Kiedy izolacja sieciowa nie jest właściwym rozwiązaniem
Systemy izolowane rozwiązują określone problemy. Wiążą się też z realnym obciążeniem.
Trudności z aktualizacją. Utrzymywanie aktualnych modeli i oprogramowania wymaga ręcznych kroków. Zespoły, które zostają w tyle, mogą nie wykrywać nowych wzorców PII.
Narzut integracyjny. Systemy izolowane nie mogą łączyć się z chmurowymi narzędziami SIEM ani zdalnymi panelami audytu. Wymagane są niestandardowe rozwiązania z diodami danych, co zwiększa koszty.
Kompromisy dokładnościowe. Narzędzia chmurowe na bieżąco aktualizują dane treningowe. Modele offline stanowią migawkę — z czasem mogą tracić trafność wobec nowych wzorców językowych.
Nie jest potrzebna dla każdego modelu zagrożeń. Zespoły bez mandatów rządowych, medycznych lub prawnych mogą uznać narzędzia chmurowe za bardziej praktyczne. Solidne szyfrowanie, audyty SOC 2 Typ II i umowy o przetwarzaniu danych obejmują większość przypadków. Izolacja sieciowa opłaca się tylko wtedy, gdy model zagrożeń rzeczywiście uwzględnia kradzież danych przez sieć przez zaawansowanego przeciwnika.
Dla większości MŚP i standardowych przedsiębiorstw solidne szyfrowanie w tranzycie i spoczynku zapewnia odpowiednią ochronę. Uzupełnione solidnymi kontrolami umownymi — pokrywa to większość przypadków użycia bez obciążeń związanych z pełną izolacją sieciową. Zobacz nasze FAQ po więcej informacji o wyborze właściwego modelu wdrożenia.
Aplikacja desktopowa anonym.legal (Windows, macOS, Linux) przetwarza PII całkowicie lokalnie z dołączonymi modelami NLP. Po instalacji połączenie z internetem nie jest wymagane. Przetwarzanie wsadowe obsługuje od 1 do 5000 plików na uruchomienie, w zależności od planu.