Powrót do blogaTechniczne

Izolowana prywatność: Jak zanonimizować wrażliwe...

Środowiska FedRAMP i ITAR mają jedną wspólną cechę — chmura nie jest opcją. Odwracalna pseudonimizacja zgodnie z art.

April 13, 20269 min czytania
air-gapped anonymizationSCIF document processingITAR complianceFedRAMP offline toolsoffline PII detection

Wymóg izolacji

Wykonawcy obronni, agencje wywiadowcze rządu i operatorzy krytycznej infrastruktury zarządzają sieciami, w których zewnętrzna łączność z internetem jest fizycznie niemożliwa, a nie tylko zabroniona przez politykę. SCIF (Sensitive Compartmented Information Facility) to pomieszczenie lub obiekt zaprojektowany w celu zapobiegania elektronicznemu podsłuchiwaniu i zbieraniu informacji wywiadowczych — jest to klatka Faradaya, w której nie wchodzą ani nie wychodzą sygnały bezprzewodowe. Klasyfikowana sieć rządowa pod kontrolą ITAR (International Traffic in Arms Regulations) nie może przesyłać objętych danymi technicznymi do niezatwierdzonych stron — kategoria ta obejmuje dostawców usług chmurowych, którzy nie mają zatwierdzenia w ramach ITAR.

Dla organizacji w tych środowiskach "chmurowe SaaS" nie jest ryzykiem do zarządzania — jest to techniczna niemożliwość. Jakiekolwiek narzędzie do anonimizacji, które wymaga aktywnego połączenia sieciowego, nie może być wdrożone. Jakiekolwiek narzędzie, które dzwoni do domu w celu weryfikacji licencji, jest nie do przyjęcia. Jakiekolwiek narzędzie, którego modele detekcji wymagają wywołań API chmurowego do wnioskowania, nie może działać.

Społeczność Ollama szczególnie wskazuje na wdrożenie w trybie izolowanym jako główny powód dla lokalnych narzędzi AI: "Wszystkie dane pozostają na twoim urządzeniu z Ollama, bez informacji wysyłanych do zewnętrznych serwerów — szczególnie ważne dla wrażliwej pracy, takiej jak lekarze zajmujący się notatkami pacjentów lub prawnicy przeglądający akta spraw." Ta sama zasada ma zastosowanie na poziomie organizacyjnym dla klasyfikowanych i kontrolowanych przez ITAR środowisk.

Przykład użycia ITAR

Naukowiec danych w firmie obronnej przetwarzającej dane osobowe zgodnie z wymaganiami ITAR musi zdezidentyfikować pliki przed ich udostępnieniem dziennikarzowi, który złożył wniosek FOIA. Sieć wykonawcy jest izolowana. Przetwarzanie musi odbywać się na maszynie w trybie izolowanym i musi produkować wyniki odpowiednie do publikacji.

Ten przypadek użycia nie ma rozwiązania chmurowego. Jedyną drogą jest narzędzie, które działa całkowicie na lokalnej maszynie, stosuje modele detekcji przechowywane lokalnie i produkuje zanonimizowane wyniki bez jakiejkolwiek komunikacji zewnętrznej. Aplikacja Desktop oparta na Tauri 2.0 działa dokładnie w tej konfiguracji: po pobraniu i zainstalowaniu nie są wykonywane żadne wywołania sieciowe podczas przetwarzania dokumentów. Modele NER spaCy, wzorce regex i wnioskowanie transformatora działają lokalnie. Wynik przetwarzania nigdy nie opuszcza maszyny, chyba że użytkownik wyraźnie go wyeksportuje.

Odwracalna pseudonimizacja dla operacji klasyfikowanych

Powiązany wymóg w kontekstach klasyfikowanych i rządowych: odwracalna pseudonimizacja, która zachowuje użyteczność analityczną przy jednoczesnej ochronie prawdziwych tożsamości. Artykuł 4(5) RODO formalnie uznaje pseudonimizację za środek ochrony danych, który zmniejsza ryzyko zgodności — dane pseudonimizowane podlegają zmniejszonym obowiązkom w porównaniu do danych w pełni identyfikowalnych, pod warunkiem, że klucze pseudonimizacji są przechowywane oddzielnie od zbioru danych pseudonimizowanych.

Badania IAPP (2024) wykazały, że tylko 23% narzędzi do anonimizacji oferuje prawdziwą odwracalność — możliwość odszyfrowania danych pseudonimizowanych z powrotem do wartości oryginalnych za pomocą klucza, który jest przechowywany oddzielnie od wyniku. Większość narzędzi wdraża trwałą wymianę (oryginalne dane są nadpisywane i nie mogą być odzyskane) lub maskowanie (częściowe wyświetlanie oryginalnej wartości).

Dla operacji rządowych, w których zbiory danych pseudonimizowanych muszą być udostępniane w różnych działach — jeden zespół otrzymuje zbiór danych pseudonimizowanych do pracy analitycznej, inny zespół przechowuje klucz deszyfrujący do reidentyfikacji, gdy jest to prawnie wymagane — odwracalne szyfrowanie z separacją klucza jest jedyną zgodną architekturą.

Podejście zero-knowledge idzie jeszcze dalej: klucz szyfrowania jest generowany po stronie klienta i nigdy nie jest przesyłany. Nawet jeśli dostawca narzędzia do anonimizacji zostałby wezwany do sądu, nie może dostarczyć klucza deszyfrującego, ponieważ nigdy go nie otrzymał. Dla klasyfikowanych środowisk, w których łańcuch dowodowy dla kluczy szyfrowania jest sam w sobie wymogiem bezpieczeństwa, ta architektura zapewnia wymaganą pewność.

Zgodność z wytycznymi EDPB

Wytyczne EDPB 05/2022 dotyczące pseudonimizacji wymagają separacji kluczy: klucz pseudonimizacji musi być przechowywany przez inną stronę niż strona otrzymująca zbiór danych pseudonimizowanych lub przechowywany z technicznymi kontrolami, które uniemożliwiają stronie otrzymującej dostęp zarówno do danych, jak i klucza jednocześnie.

Kombinacja generacji klucza po stronie klienta (klucz nigdy nie opuszcza urządzenia użytkownika), lokalnego przetwarzania (dane nigdy nie opuszczają izolowanego środowiska) oraz oddzielnego eksportu zanonimizowanych wyników i kluczy deszyfrujących spełnia wymóg separacji kluczy EDPB, jednocześnie spełniając ograniczenie operacyjne w trybie izolowanym.

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.