Проблема решения одного риска соблюдения, создавая другой
Организации, которые осознали риск утечки данных из-за инструментов ИИ, часто внедряют логически обоснованное решение: анонимизировать чувствительное содержимое до его поступления к поставщикам ИИ, используя постоянную или одностороннюю анонимизацию, которую нельзя отменить.
Логика с точки зрения безопасности обоснована. Анализ Cyberhaven за 4 квартал 2025 года показал, что 34,8% содержимого, отправленного в ChatGPT, содержит чувствительную информацию. Исследование Института Понемона 2024 года установило, что средняя стоимость утечки данных ИИ составляет 2,1 миллиона долларов. Исследования eSecurity Planet и Cyberhaven показали, что 77% сотрудников еженедельно делятся чувствительными данными с инструментами ИИ. Риск реальный, частый и дорогостоящий.
Но постоянная анонимизация — необратимое одностороннее хэширование, разрушительное редактирование или псевдонимизация без сохранения ключа — решает проблему безопасности ИИ, создавая другую: уничтожение улик.
Для организаций, подлежащих судебным разбирательствам, регуляторным расследованиям или обязательствам по раскрытию информации, постоянное уничтожение возможности восстановления оригинальных данных из их анонимизированного представления может рассматриваться как уничтожение улик в соответствии с федеральными и государственными правилами раскрытия. Документ, который был постоянно анонимизирован и из которого нельзя восстановить оригинальную информацию, может рассматриваться как уничтоженные улики.
Масштаб обмена данными, который делает это срочным
77% еженедельная доля обмена устанавливает масштаб. Сотрудники из различных отраслей — юридической, здравоохранения, финансовых услуг, технологий — регулярно отправляют рабочее содержимое в инструменты ИИ как часть своего рабочего процесса.
Это содержимое включает:
- Коммуникации и переписку с клиентами
- Проекты контрактов и согласованные условия
- Внутренние стратегические обсуждения и документы бизнес-планирования
- Финансовые прогнозы и данные моделирования
- Юридические исследовательские меморандумы и заметки по стратегии дел
- Информацию о пациентах и клиническую документацию
- Записи сотрудников и коммуникации HR
Когда организация внедряет постоянную анонимизацию в качестве своего контроля безопасности ИИ, каждый документ, проходящий через этот контроль в обычном ходе бизнеса, может быть изменен таким образом, что уничтожает его доказательную ценность. Если любой из этих документов становится актуальным для будущего судебного разбирательства — что для организаций в регулируемых отраслях, работающих в большом масштабе, почти наверняка произойдет в течение нескольких лет — организация потенциально производит уничтоженные улики.
Требование обратимости GDPR
Регуляторная структура Европейского Союза по защите данных явно рассматривает вопрос обратимости в контексте псевдонимизации.
Статья 4(5) GDPR определяет псевдонимизацию как "обработку персональных данных таким образом, что персональные данные больше не могут быть отнесены к конкретному субъекту данных без использования дополнительной информации, при условии, что такая дополнительная информация хранится отдельно и подлежит техническим и организационным мерам для обеспечения того, чтобы персональные данные не были отнесены к идентифицированному или идентифицируемому физическому лицу."
Определение требует, чтобы "дополнительная информация" — ключ, позволяющий повторное атрибутирование — сохранялась. Псевдонимизированные данные в соответствии с GDPR — это данные, которые могут быть повторно идентифицированы с использованием отдельно хранимых ключей. Данные, которые не могут быть повторно идентифицированы, не являются псевдонимизированными в соответствии с GDPR — они анонимизированы, и различие GDPR имеет значение для целей соблюдения.
Руководящие принципы Европейского совета по защите данных 05/2022 по использованию псевдонимизации подтверждают, что обратимость является определяющим требованием псевдонимизации в соответствии с Регламентом. Организации, которые внедряют постоянную одностороннюю анонимизацию, не реализуют псевдонимизацию, как это определяет GDPR — они реализуют анонимизацию. Последствия для соблюдения различаются: псевдонимизированные данные сохраняют некоторые обязательства GDPR, в то время как действительно анонимизированные данные могут выходить за рамки сферы действия GDPR, но операционное различие также имеет значительное значение — псевдонимизированные данные могут быть восстановлены для законных целей, включая юридическое раскрытие, в то время как постоянно анонимизированные данные не могут.
Рамки уничтожения улик по федеральным правилам
В соответствии с Федеральными правилами гражданского судопроизводства стороны судебного разбирательства обязаны сохранять документы и электронно хранимую информацию, которые могут иметь отношение к ожидаемому или фактическому судебному разбирательству. Эта обязанность возникает, когда судебное разбирательство разумно ожидается — не когда оно подается.
Правило 37(e) предоставляет судам полномочия налагать санкции, когда сторона не сохраняет электронно хранимую информацию, которую следовало бы сохранить, и это неисполнение приводит к ущербу для другой стороны. Санкции могут включать:
- Предполагаемые инструкции о неблагоприятных выводах (жюри инструктируется предполагать, что уничтоженные улики были бы неблагоприятными для стороны, уничтожившей улики)
- Исключение доказательств
- Санкции, решающие дело, в крайних случаях
Анализ уничтожения улик в контексте постоянной анонимизации работает следующим образом: если организация использует рабочий процесс ИИ, который постоянно анонимизирует документы в обычном ходе бизнеса, и эти документы позже становятся актуальными для судебного разбирательства, организация изменила эти документы таким образом, что восстанавливать их оригинальное содержимое невозможно. Если изменение произошло после того, как возникла обязанность по сохранению — или если организация знала или должна была знать, что тип документов, которые анонимизируются, может стать актуальным для разумно ожидаемого судебного разбирательства — организация сталкивается с риском уничтожения улик.
Это не гипотетически. Организации в отраслях с постоянным регуляторным контролем, повторяющимся риском судебных разбирательств или историей договорных споров сталкиваются с постоянным состоянием разумного ожидания судебного разбирательства для широких категорий документов. Внедрение постоянной анонимизации в рабочих процессах документов без исключений для потенциально актуальных материалов представляет собой систематический риск уничтожения улик.
Техническое различие: обратимое против необратимого
Техническое различие между обратимой и необратимой анонимизацией является архитектурным, а не инкрементальным.
Необратимая анонимизация (хэширование, постоянная замена, разрушительное редактирование) трансформирует данные таким образом, что это нельзя отменить. Хэширование имени клиента с использованием SHA-256 производит хэш фиксированной длины, из которого имя нельзя вывести. Постоянное редактирование заменяет содержимое таким образом, что уничтожает исходный текст.
Обратимая псевдонимизация (замена токенов с сохранением ключа, шифрование AES-256-GCM) трансформирует данные таким образом, что это можно отменить с использованием отдельно хранимой информации. Имя клиента, замененное структурированным токеном, может быть повторно связано с оригинальным именем с использованием таблицы соответствия. Содержимое, зашифрованное с помощью AES-256-GCM, может быть расшифровано с использованием соответствующего ключа. Оригинальное содержимое остается восстанавливаемым.
Для целей безопасности ИИ — предотвращение попадания чувствительных данных к поставщикам ИИ в пригодной форме — оба подхода достигают одной и той же цели. Модель ИИ обрабатывает токены или псевдонимизированное содержимое и никогда не видит оригинальные чувствительные данные.
Для юридического соблюдения — сохранение возможности восстановления оригинального содержимого для раскрытия, регуляторного ответа или законных бизнес-целей — только обратимая псевдонимизация совместима. Необратимые подходы устраняют возможность восстановления и создают риск уничтожения улик, описанный выше.
Соответствующая архитектура
Архитектура, которая решает как проблемы безопасности ИИ, так и соблюдения раскрытия, использует обратимую псевдонимизацию AES-256-GCM:
- Документы обрабатываются перед отправкой в инструменты ИИ
- Чувствительные сущности — имена, номера счетов, идентификаторы, PHI, привилегированное содержимое — заменяются структурированными токенами
- Соответствие токенов и оригинала хранится отдельно с контролем доступа, соответствующим чувствительности данных
- Обработка ИИ происходит на токенизированной версии — модель ИИ никогда не получает восстанавливаемое чувствительное содержимое
- Результаты декодируются с использованием сохраненного соответствия для законного бизнес-использования
- Соответствие подлежит удержанию в случае судебного разбирательства, когда возникают обязательства по раскрытию
В рамках этой архитектуры оригинальное содержимое никогда не уничтожается. Поставщик ИИ никогда не получает его в пригодной форме. Соответствие токенов сохраняет возможность восстановления оригинального содержимого, когда это требуется по закону. Риск уничтожения улик устраняется, потому что никакие улики не уничтожаются — только временно псевдонимизированы обратимым способом.
Требование псевдонимизации GDPR в соответствии со статьей 4(5) выполняется: дополнительная информация (соответствие токенов) хранится отдельно с соответствующими техническими и организационными мерами. Требование сохранения по федеральным правилам выполняется: оригинальное содержимое может быть восстановлено, когда применяется удержание в случае судебного разбирательства.
Организации, внедряющие меры безопасности ИИ, сталкиваются с бинарным выбором: постоянно анонимизировать и создать риск раскрытия или обратимо псевдонимизировать и одновременно удовлетворить требования безопасности и соблюдения. Средняя стоимость утечки данных ИИ в размере 2,1 миллиона долларов, которая определяет решение о контроле безопасности, должна быть сопоставлена с потенциальной стоимостью санкций за уничтожение улик — которые, в случаях с значительными денежными ставками, могут достигать того же или большего порядка величины.
Источники: