Таблицы — это не документы
Файл Word — это поток текста. Файл Excel — нечто принципиально иное. Ячейки ссылаются на другие ячейки. Формулы работают с диапазонами. Сводные таблицы группируют именованные данные. Макросы перемещаются по всей книге. Большинство инструментов редактирования обрабатывают Excel как текстовый документ. Это неверная модель.
Вот простой пример. Столбец A содержит имена клиентов. В столбце D — формула: =ВПР(A2; ТаблицаКлиентов; 5; ЛОЖЬ). Эта формула ищет баланс счёта по имени клиента. Вы заменяете имя в столбце A, но не обновляете формулу или таблицу поиска. Формула по-прежнему возвращает реальный баланс для исходного имени. Файл выглядит чистым. Но он таковым не является.
Это типичная ситуация в корпоративных файлах Excel. Данные существуют в виде взаимосвязей — а не просто в ячейках. Замена значений ячеек без отслеживания этих взаимосвязей оставляет персональные данные в открытом доступе.
GDPR Статья 28 и внешний обмен данными
Статья 28 GDPR регулирует передачу данных обработчикам. Если вы отправляете персональные данные консультанту, поставщику или аудитору, необходимы технические гарантии защиты.
Предположим, вам нужно передать аналитическому подрядчику файл с 50 000 строками данных о клиентах. Экспорт в PDF убирает формулы и ломает крупные файлы со сложным форматированием. CSV убирает формулы и сводные таблицы. Ни один из вариантов не даёт подрядчику пригодный для работы набор данных.
Единственный вариант, который работает: анонимизация внутри нативного формата Excel. Замените идентифицирующие значения, сохранив структуру. Подрядчик получит рабочий файл, а вы выполните требования GDPR о технических гарантиях.
Изолированные среды (air-gapped)
67% государственных и оборонных тендерных запросов содержат требования к работе в изолированных средах (DISA 2024). Оборонные подрядчики обрабатывают данные личного состава, логистические записи и закупочные файлы в Excel. Они не могут использовать облачные инструменты — данные не должны покидать защищённую сеть.
Десктопное приложение решает эту задачу. Оно обрабатывает файлы Excel на локальной машине без каких-либо сетевых запросов в процессе работы. Выходной файл никогда не покидает изолированную среду. Внутренние команды могут обмениваться чистыми файлами в рамках защищённой сети.
Это соответствует техническим требованиям государственных контрактов.
Три уровня работы с ячейками
Качественная анонимизация Excel работает одновременно на трёх уровнях.
Уровень значений: Поиск и замена персональных данных в отдельных ячейках. Имена, электронные адреса, телефонные номера и национальные идентификаторы выявляются с помощью того же механизма обнаружения, что и при обработке документов.
Уровень формул: Поиск ячеек, формулы которых ссылаются на ячейки с персональными данными. Обновление этих ссылок на анонимизированные значения. Или замена формулы её результатом для устранения утечки данных через формулы.
Уровень структуры: Очистка кэша данных сводных таблиц. Обработка скрытых строк и столбцов. Работа с кодом макросов VBA, использующим конкретные адреса или значения ячеек.
Все три уровня должны выполняться вместе. Исправление значений без исправления формул оставляет персональные данные на месте. Исправление формул без очистки кэша даёт тот же результат.
Эта проблема характерна для всех форматов файлов. О том, как фрагментация форматов влияет на обнаружение персональных данных, читайте в нашей статье.
Для команд, работающих со структурированными данными на уровне API, см. статью о минимизации данных GDPR в API реального времени.
Если ваша команда обрабатывает крупные экспорты DSAR, обратитесь к руководству по пакетной обработке DSAR в рамках GDPR.