Почему таблицы не являются документами
Документ Word — это последовательный текстовый поток с метаданными форматирования. Таблица Excel — это реляционная структура данных: ячейки ссылаются на другие ячейки, формулы работают с диапазонами ячеек, сводные таблицы агрегируют именованные диапазоны данных, а макросы обходят объектную модель таблицы. Рассмотрение файла Excel как текстового документа для обработки шаблонов PII — что является подходом большинства инструментов редактирования документов — упускает из виду взаимосвязи данных, которые определяют фактическое содержание таблицы.
Рассмотрим таблицу анализа клиентов. Столбец A содержит имена клиентов. Столбец D содержит формулу: =VLOOKUP(A2, CustomerTable, 5, FALSE) — поиск, который возвращает баланс счета клиента на основе его имени. Если инструмент анонимизации заменяет имя в столбце A, но не обновляет ссылку на формулу или таблицу поиска, формула продолжает возвращать фактический баланс счета для оригинального имени. "Анонимизированный" документ по-прежнему раскрывает оригинальную личность клиента через взаимосвязь данных.
Это не гипотетический крайний случай. Корпоративные файлы Excel строятся вокруг взаимосвязей данных. Анонимное замещение отдельных значений ячеек без понимания реляционной структуры создает документы, которые выглядят анонимизированными, но сохраняют оригинальные данные через ссылки на формулы, кэши сводных таблиц и межлистовые ссылки.
Требование GDPR о передаче данных третьим лицам
Статья 28 GDPR регулирует обмен данными с процессорами: организации, передающие личные данные внешним сторонам (консультантам, поставщикам аналитики, аудиторам), должны обеспечивать соответствующие технические меры безопасности. Практический вопрос: какие меры безопасности являются подходящими при передаче набора данных Excel, содержащего 50,000 записей клиентов, внешнему поставщику аналитики?
Экспорт в PDF удаляет формулы и создает снимок — но экспорт PDF больших файлов Excel часто повреждает сложное форматирование и не подходит для аналитического использования. Конвертация в CSV удаляет формулы, сводные таблицы и большую часть аналитической структуры. Ни один из этих вариантов не предоставляет внешнему поставщику пригодный набор данных для их аналитической цели.
Анонимизация на уровне ячеек в родном формате Excel — замена идентифицирующих значений при сохранении аналитической структуры — это единственный подход, который одновременно удовлетворяет требованиям безопасности GDPR и требованиям бизнес-целесообразности.
Обработка в изолированных средах для оборонительных таблиц
67% запросов на предложения по закупкам в государственном и оборонном секторах указывают на требования к изолированным средам (DISA 2024). Оборонные подрядчики, работающие с данными о персонале, логистической информацией или записями о закупках в формате Excel, не могут использовать облачные инструменты анонимизации по тем же причинам, которые запрещают облачную обработку документов: данные не могут покидать контролируемую сеть.
Сочетание возможностей анонимизации, специфичных для Excel, и локальной обработки создает технический профиль, необходимый для соблюдения требований государственных контрактов. Настольное приложение обрабатывает файлы Excel локально без сетевых вызовов во время обработки; результаты анонимизации никогда не покидают изолированную среду; обработанные файлы доступны для внутреннего обмена в пределах контролируемой сети.
Интеллект на уровне ячеек
Эффективная анонимизация Excel работает на трех уровнях одновременно:
Уровень значений: Обнаружение и замена значений PII в отдельных ячейках. Имена клиентов, адреса электронной почты, номера телефонов и номера национальных удостоверений личности определяются с помощью того же гибридного движка обнаружения, который используется для обработки документов.
Уровень формул: Определение ячеек, формулы которых ссылаются на ячейки, содержащие PII, и обновление этих ссылок, чтобы указывать на анонимизированные значения или замена формулы на ее вычисленный результат, чтобы предотвратить раскрытие PII на основе формул.
Уровень структуры: Очистка кэшей данных сводных таблиц, обработка скрытых строк и столбцов, а также работа с кодом макросов VBA, который ссылается на конкретные адреса или значения ячеек.
Источники: