Електронні таблиці — це не документи
Файл Word — це текстовий потік. Файл Excel — щось зовсім інше. Клітинки посилаються на інші клітинки. Формули працюють з діапазонами. Зведені таблиці групують іменовані дані. Макроси обходять усю книгу. Більшість інструментів редагування обробляють Excel як текстовий документ. Це хибна модель.
Простий приклад. Стовпець A містить імена клієнтів. Стовпець D — формулу: =VLOOKUP(A2, CustomerTable, 5, FALSE). Ця формула знаходить баланс рахунку за іменем. Ви замінюєте ім'я у стовпці A, але не оновлюєте формулу чи таблицю підстановки. Формула все одно повертає реальний баланс для оригінального імені. Файл виглядає чистим — але він таким не є.
Це типово для корпоративних файлів Excel. Дані живуть у зв'язках, а не лише в клітинках. Заміна значень клітинок без відстеження цих зв'язків залишає персональні дані відкритими.
GDPR Стаття 28 та зовнішній обмін даними
Стаття 28 GDPR регулює передачу даних обробникам. Якщо ви надсилаєте персональні дані консультанту, постачальнику або аудитору, вам потрібні технічні гарантії.
Припустімо, що вам потрібно надати аналітичному постачальнику файл з 50 000 рядками даних клієнтів. Експорт у PDF видаляє формули і ламає великі файли зі складним форматуванням. CSV також видаляє формули та зведені таблиці. Жоден з цих форматів не дає постачальнику придатний для роботи набір даних.
Єдиний варіант, що спрацює: анонімізувати всередині рідного формату Excel. Замінити ідентифікувальні значення. Зберегти структуру. Постачальник отримує робочий файл. Ви виконуєте вимогу GDPR щодо гарантій захисту.
Ізольовані середовища
67% тендерів державних і оборонних закупівель містять вимоги до роботи в ізольованих середовищах (DISA 2024). Підрядники оборонного відомства обробляють кадрові дані, логістичні записи та файли закупівель в Excel. Вони не можуть використовувати хмарні інструменти. Дані не можуть залишати контрольовану мережу.
Десктопний застосунок вирішує це завдання. Він обробляє файли Excel безпосередньо на локальній машині. Під час обробки не відбувається жодних мережевих звернень. Вихідний файл ніколи не залишає ізольоване середовище. Внутрішні команди можуть обмінюватися чистими файлами в межах контрольованої мережі.
Це відповідає технічним вимогам для виконання державних контрактів.
Три рівні аналізу клітинок
Правильна анонімізація Excel одночасно працює на трьох рівнях.
Рівень значень: пошук і заміна персональних даних в окремих клітинках. Імена, електронні адреси, телефонні номери та національні ідентифікатори позначаються тим самим механізмом виявлення, що й під час обробки документів.
Рівень формул: пошук клітинок, чиї формули посилаються на клітинки з персональними даними. Оновлення цих посилань, щоб вони вказували на анонімізовані значення. Або заміна формули її результатом — щоб припинити витік персональних даних через формули.
Рівень структури: очищення кешів даних зведених таблиць. Обробка прихованих рядків і стовпців. Обробка коду VBA-макросів, що використовує конкретні адреси або значення клітинок.
Усі три рівні мають виконуватися разом. Виправлення значень без виправлення формул залишає персональні дані на місці. Виправлення формул без очищення кешів — те саме.
Ця проблема стосується кожного формату файлів. Загальніший огляд наведено в матеріалі як фрагментація форматів впливає на виявлення персональних даних.
Для команд, що працюють зі структурованими даними на рівні API, перегляньте мінімізацію даних GDPR у реальних API.
Якщо ваша команда виконує великі DSAR-вивантаження, дивіться пакетну обробку GDPR DSAR у великих масштабах — там описані робочі процеси, які стосуються і цього випадку.