anonym.legal
Назад к блогуТехнические

Анонимизация PII в изолированных системах...

41% корпоративных политик безопасности запрещают облачную обработку секретных документов.

March 3, 20268 мин чтения
offlineair-gapdesktopITARGDPRgovernmentdefenselocal processing

Проблема, которую не могут решить облачные инструменты

У специалиста по данным в оборонном подрядчике есть 3000 записей сотрудников. Им необходимо анонимизировать имена, номера социального страхования и уровни допуска к секретной информации перед тем, как поделиться набором данных с университетским исследовательским партнером в рамках соглашения о контролируемой неклассифицированной информации (CUI).

Их сеть не имеет доступа к интернету. По замыслу.

Каждый веб-инструмент анонимизации, который они оценивают, требует отправки данных на внешний API. Каждая корпоративная SaaS-платформа требует регистрации аккаунта и подключения к облаку. Даже "локальные" инструменты часто нуждаются в серверах лицензий, которые периодически делают вызовы в интернет.

Это проблема раздельного развертывания — и она затрагивает гораздо больше организаций, чем узкая рамка "секретного правительства" предполагает.

Кто нуждается в обработке с оффлайн-первым подходом

Оборонные подрядчики и государственные учреждения — это самая очевидная категория. Требования DISA к FedRAMP обязывают обрабатывать данные в рамках разрешенных границ. ITAR ограничивает обработку технических данных инфраструктурой, контролируемой США. Сети разведывательного сообщества (JWICS, SIPRNet) физически изолированы по замыслу.

Но требование оффлайн-первого подхода распространяется далеко за пределы секретных сред:

Системы здравоохранения с сегментацией сети: Сети больниц изолируют клинические системы от сетей общего доступа. Системы PACS (медицинская визуализация), системы EHR, работающие в сегментированных сетях, и базы данных клинических исследований могут не иметь подключения к интернету по политике.

Финансовые услуги с изоляцией торговых площадок: Проприетарные торговые среды, определенные сети клиринговых палат и инфраструктура, подключенная к SWIFT, работают с строгой сетевой изоляцией.

Системы управления промышленностью: Сети SCADA, системы управления производством и критическая инфраструктура работают с разрывами в сети или близкими к ним в качестве меры безопасности (усиление после Stuxnet).

Требования к суверенитету данных в Европе: Строгие Landesdatenschutzgesetze Германии и сопоставимые национальные законы в ЕС все чаще требуют локальной обработки для чувствительных данных правительства и здравоохранения. Штраф TikTok в размере €530M (май 2025 года) за передачи данных в Китай ускорил эту тенденцию.

Почему облачная архитектура не подходит для раздельных развертываний

Большинство корпоративных инструментов анонимизации спроектированы как SaaS-платформы:

Устройство пользователя → HTTPS → API поставщика → Модели NLP → Ответ → Устройство пользователя

Эта архитектура требует:

  1. Подключения к интернету от устройства обработки
  2. Доверия к инфраструктуре API поставщика
  3. Принятия того, что данные проходят через внешние сети
  4. Зависимости от доступности поставщика и изменений цен

Для изолированных сред шаг 1 является физической невозможностью. Для регулируемых сред шаги 2-4 могут представлять собой нарушения соблюдения.

Самостоятельно размещаемый Presidio является общим альтернативным решением, но он требует:

  • Экспертизы в Docker для развертывания
  • Управления средой Python
  • Загрузки моделей spaCy (требуется интернет)
  • Постоянного обслуживания по мере обновления моделей и зависимостей
  • Ресурсов DevOps, которых у большинства команд нет

Этот разрыв — между удобством SaaS и сложностью самостоятельного размещения — именно то, что решают инструменты с оффлайн-первым подходом для настольных ПК.

Техническая архитектура анонимизации PII с оффлайн-первым подходом

Правильно построенный инструмент анонимизации PII с оффлайн-первым подходом включает все необходимое для обработки:

1. Предварительно упакованные модели NLP Модели языка spaCy (в среднем 40-80 МБ каждая), модели трансформеров для распознавания именованных сущностей и модели обнаружения языка упакованы в установщик приложения. На этапе обработки не требуется загрузка.

2. Локальный процессинговый конвейер Весь конвейер regex + NLP + ML обнаружения работает на локальном ЦП (и опционально на GPU). Движок обнаружения на основе Presidio, который использует anonym.legal, не требует сетевых вызовов во время обработки.

3. Зашифрованный локальный хранилище Конфигурация, пресеты и ключи шифрования хранятся в локальном зашифрованном хранилище (AES-256-GCM + Argon2id). Нет облачной синхронизации. Нет удаленного резервного копирования ключей. Хранилище существует только на локальном устройстве.

4. Локальный ввод/вывод файлов Входные файлы читаются из локального хранилища; выходные файлы записываются в локальное хранилище. Никакие данные не проходят через любой сетевой интерфейс.

5. Минимальная поверхность атаки Tauri 2.0 (на основе Rust) предоставляет значительно меньшую поверхность атаки, чем альтернативы на основе Electron (Chromium). Приложения Tauri имеют размер бинарного файла примерно в 10 раз меньше и по умолчанию имеют доступ к меньшему количеству API ОС.

Случаи использования соблюдения

Анонимизация технических данных ITAR

Оборонный подрядчик должен поделиться технической документацией с иностранным партнером в рамках исключения лицензии. Документы содержат имена и данные сотрудников США, которые должны быть анонимизированы перед применением исключения лицензии ITAR.

Требования:

  • Обработка только на очищенных рабочих станциях (без облака)
  • Никакая передача данных за пределы очищенной среды
  • Аудиторский след, демонстрирующий, что анонимизация была применена
  • Пакетная обработка для 500+ документов

Приложение anonym.legal Desktop обрабатывает все 500+ файлов DOCX локально, используя пакетный режим. Никакой сетевой вызов не выполняется во время обработки. Аудиторский журнал хранится в локальном зашифрованном хранилище. Анонимизированные документы соответствуют требованиям исключения лицензии ITAR.

Обмен данными Федерального агентства Германии

Федеральное агентство Германии (Bundesbehörde) должно анонимизировать данные жалоб граждан перед тем, как поделиться ими с внешним исследовательским институтом. Руководство BfDI запрещает обработку на не правительственной инфраструктуре.

Приложение Desktop работает на рабочих станциях агентства с Windows 11. Обработка происходит локально без внешних сетевых вызовов. Команда ИТ-безопасности агентства подтверждает это с помощью мониторинга сетевого трафика — ноль внешних подключений во время обработки.

Данные клинических исследований больницы

Отдел исследований больницы должен деидентифицировать записи пациентов для многоцентрового клинического испытания. Деидентификация по стандартам HIPAA Safe Harbor удаляет 18 категорий идентификаторов. Клиническая сеть не имеет доступа к интернету по политике.

Приложение Desktop обрабатывает пакетную обработку экспортов EHR в формате CSV и JSON. Офицер по защите данных больницы проверяет вывод на соответствие требованиям HIPAA Safe Harbor перед передачей набора данных исследовательским партнерам.

Ключевые возможности для раздельного развертывания

При оценке инструментов анонимизации PII с оффлайн-первым подходом приоритизируйте:

ВозможностьПочему это важно
Полностью оффлайн после установкиНет зависимости от интернета во время обработки
Предварительно упакованные модели NLPНет шага загрузки, требующего сетевого доступа
Пакетная обработкаОбработка объема без повторного ручного взаимодействия
Локальное зашифрованное хранилищеБезопасное локальное хранение конфигураций и ключей
Аудиторский журналДокументация для проверок соблюдения
Поддержка Windows/macOS/LinuxОхватывает секретные рабочие станции
Нет опции телеметрииОбеспечивает отсутствие утечки данных через телеметрию
Охват форматов файловDOCX, PDF, TXT, CSV, JSON, Excel

Преимущество суверенитета данных

Штраф TikTok в размере €530M по GDPR и последующая волна принудительного исполнения создали вторичный драйвер для инструментов с оффлайн-первым подходом: суверенитет данных.

Организации ЕС, которые ранее использовали облачные инструменты для удобства, теперь пересматривают, соответствует ли обработка на инфраструктуре внешнего поставщика требованиям главы V GDPR (международные передачи) и национальным законам о защите данных.

Самый чистый ответ на вопрос "куда уходят ваши данные во время обработки?" — "никуда — они никогда не покидают устройство." Оффлайн-первый подход к обработке полностью устраняет вопрос передачи по GDPR.

Для немецких организаций в частности сочетание строгой интерпретации статьи 44-46 DSGVO и недавней тенденции к принудительному исполнению делает локальную обработку все более привлекательной даже для организаций без строгих требований к подключению.

Практические соображения по развертыванию

Установка на изолированных системах: Установочный пакет (Windows .exe/.msi, macOS .dmg, Linux .AppImage/.deb) передается в изолированную среду через USB или безопасную передачу файлов. После установки доступ к интернету не требуется.

Охват языковых моделей: Упаковано 24 языковые модели. Для изолированных сред полный набор языков доступен оффлайн без дополнительной загрузки.

Аппаратные требования: NLP-конвейер эффективно работает на современных рабочих станциях без требований к GPU. Пакетная обработка 1000 документов обычно завершается за 5-15 минут в зависимости от размера документа и производительности ЦП.

Лицензирование в изолированных средах: Доступна оффлайн-активация лицензии для сред, где подключение к серверу лицензий невозможно.


Приложение Desktop от anonym.legal (доступно для Windows, macOS и Linux) полностью обрабатывает PII локально, используя предварительно упакованные модели NLP. После установки подключение к интернету не требуется. Пакетная обработка поддерживает от 1 до 5000 файлов в зависимости от уровня плана.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.