anonym.legal
Назад к блогуЮридические технологии

Постоянная анонимизация: почему необратимое...

34,8% вводов ChatGPT содержат чувствительные данные (Cyberhaven). Решение — постоянная анонимизация — создает свои собственные юридические риски...

March 15, 202610 мин чтения
reversible encryptionspoliation risklegal discovery complianceGDPR pseudonymizationAES-256-GCM

Проблема решения одного риска соблюдения, создавая другой

Организации, которые осознали риск утечки данных из-за инструментов ИИ, часто внедряют логически обоснованное решение: анонимизировать чувствительное содержимое до его поступления к поставщикам ИИ, используя постоянную или одностороннюю анонимизацию, которую нельзя отменить.

Логика с точки зрения безопасности обоснована. Анализ Cyberhaven за 4 квартал 2025 года показал, что 34,8% содержимого, отправленного в ChatGPT, содержит чувствительную информацию. Исследование Института Понемона 2024 года установило, что средняя стоимость утечки данных ИИ составляет 2,1 миллиона долларов. Исследования eSecurity Planet и Cyberhaven показали, что 77% сотрудников еженедельно делятся чувствительными данными с инструментами ИИ. Риск реальный, частый и дорогостоящий.

Но постоянная анонимизация — необратимое одностороннее хэширование, разрушительное редактирование или псевдонимизация без сохранения ключа — решает проблему безопасности ИИ, создавая другую: уничтожение улик.

Для организаций, подлежащих судебным разбирательствам, регуляторным расследованиям или обязательствам по раскрытию информации, постоянное уничтожение возможности восстановления оригинальных данных из их анонимизированного представления может рассматриваться как уничтожение улик в соответствии с федеральными и государственными правилами раскрытия. Документ, который был постоянно анонимизирован и из которого нельзя восстановить оригинальную информацию, может рассматриваться как уничтоженные улики.

Масштаб обмена данными, который делает это срочным

77% еженедельная доля обмена устанавливает масштаб. Сотрудники из различных отраслей — юридической, здравоохранения, финансовых услуг, технологий — регулярно отправляют рабочее содержимое в инструменты ИИ как часть своего рабочего процесса.

Это содержимое включает:

  • Коммуникации и переписку с клиентами
  • Проекты контрактов и согласованные условия
  • Внутренние стратегические обсуждения и документы бизнес-планирования
  • Финансовые прогнозы и данные моделирования
  • Юридические исследовательские меморандумы и заметки по стратегии дел
  • Информацию о пациентах и клиническую документацию
  • Записи сотрудников и коммуникации HR

Когда организация внедряет постоянную анонимизацию в качестве своего контроля безопасности ИИ, каждый документ, проходящий через этот контроль в обычном ходе бизнеса, может быть изменен таким образом, что уничтожает его доказательную ценность. Если любой из этих документов становится актуальным для будущего судебного разбирательства — что для организаций в регулируемых отраслях, работающих в большом масштабе, почти наверняка произойдет в течение нескольких лет — организация потенциально производит уничтоженные улики.

Требование обратимости GDPR

Регуляторная структура Европейского Союза по защите данных явно рассматривает вопрос обратимости в контексте псевдонимизации.

Статья 4(5) GDPR определяет псевдонимизацию как "обработку персональных данных таким образом, что персональные данные больше не могут быть отнесены к конкретному субъекту данных без использования дополнительной информации, при условии, что такая дополнительная информация хранится отдельно и подлежит техническим и организационным мерам для обеспечения того, чтобы персональные данные не были отнесены к идентифицированному или идентифицируемому физическому лицу."

Определение требует, чтобы "дополнительная информация" — ключ, позволяющий повторное атрибутирование — сохранялась. Псевдонимизированные данные в соответствии с GDPR — это данные, которые могут быть повторно идентифицированы с использованием отдельно хранимых ключей. Данные, которые не могут быть повторно идентифицированы, не являются псевдонимизированными в соответствии с GDPR — они анонимизированы, и различие GDPR имеет значение для целей соблюдения.

Руководящие принципы Европейского совета по защите данных 05/2022 по использованию псевдонимизации подтверждают, что обратимость является определяющим требованием псевдонимизации в соответствии с Регламентом. Организации, которые внедряют постоянную одностороннюю анонимизацию, не реализуют псевдонимизацию, как это определяет GDPR — они реализуют анонимизацию. Последствия для соблюдения различаются: псевдонимизированные данные сохраняют некоторые обязательства GDPR, в то время как действительно анонимизированные данные могут выходить за рамки сферы действия GDPR, но операционное различие также имеет значительное значение — псевдонимизированные данные могут быть восстановлены для законных целей, включая юридическое раскрытие, в то время как постоянно анонимизированные данные не могут.

Рамки уничтожения улик по федеральным правилам

В соответствии с Федеральными правилами гражданского судопроизводства стороны судебного разбирательства обязаны сохранять документы и электронно хранимую информацию, которые могут иметь отношение к ожидаемому или фактическому судебному разбирательству. Эта обязанность возникает, когда судебное разбирательство разумно ожидается — не когда оно подается.

Правило 37(e) предоставляет судам полномочия налагать санкции, когда сторона не сохраняет электронно хранимую информацию, которую следовало бы сохранить, и это неисполнение приводит к ущербу для другой стороны. Санкции могут включать:

  • Предполагаемые инструкции о неблагоприятных выводах (жюри инструктируется предполагать, что уничтоженные улики были бы неблагоприятными для стороны, уничтожившей улики)
  • Исключение доказательств
  • Санкции, решающие дело, в крайних случаях

Анализ уничтожения улик в контексте постоянной анонимизации работает следующим образом: если организация использует рабочий процесс ИИ, который постоянно анонимизирует документы в обычном ходе бизнеса, и эти документы позже становятся актуальными для судебного разбирательства, организация изменила эти документы таким образом, что восстанавливать их оригинальное содержимое невозможно. Если изменение произошло после того, как возникла обязанность по сохранению — или если организация знала или должна была знать, что тип документов, которые анонимизируются, может стать актуальным для разумно ожидаемого судебного разбирательства — организация сталкивается с риском уничтожения улик.

Это не гипотетически. Организации в отраслях с постоянным регуляторным контролем, повторяющимся риском судебных разбирательств или историей договорных споров сталкиваются с постоянным состоянием разумного ожидания судебного разбирательства для широких категорий документов. Внедрение постоянной анонимизации в рабочих процессах документов без исключений для потенциально актуальных материалов представляет собой систематический риск уничтожения улик.

Техническое различие: обратимое против необратимого

Техническое различие между обратимой и необратимой анонимизацией является архитектурным, а не инкрементальным.

Необратимая анонимизация (хэширование, постоянная замена, разрушительное редактирование) трансформирует данные таким образом, что это нельзя отменить. Хэширование имени клиента с использованием SHA-256 производит хэш фиксированной длины, из которого имя нельзя вывести. Постоянное редактирование заменяет содержимое таким образом, что уничтожает исходный текст.

Обратимая псевдонимизация (замена токенов с сохранением ключа, шифрование AES-256-GCM) трансформирует данные таким образом, что это можно отменить с использованием отдельно хранимой информации. Имя клиента, замененное структурированным токеном, может быть повторно связано с оригинальным именем с использованием таблицы соответствия. Содержимое, зашифрованное с помощью AES-256-GCM, может быть расшифровано с использованием соответствующего ключа. Оригинальное содержимое остается восстанавливаемым.

Для целей безопасности ИИ — предотвращение попадания чувствительных данных к поставщикам ИИ в пригодной форме — оба подхода достигают одной и той же цели. Модель ИИ обрабатывает токены или псевдонимизированное содержимое и никогда не видит оригинальные чувствительные данные.

Для юридического соблюдения — сохранение возможности восстановления оригинального содержимого для раскрытия, регуляторного ответа или законных бизнес-целей — только обратимая псевдонимизация совместима. Необратимые подходы устраняют возможность восстановления и создают риск уничтожения улик, описанный выше.

Соответствующая архитектура

Архитектура, которая решает как проблемы безопасности ИИ, так и соблюдения раскрытия, использует обратимую псевдонимизацию AES-256-GCM:

  1. Документы обрабатываются перед отправкой в инструменты ИИ
  2. Чувствительные сущности — имена, номера счетов, идентификаторы, PHI, привилегированное содержимое — заменяются структурированными токенами
  3. Соответствие токенов и оригинала хранится отдельно с контролем доступа, соответствующим чувствительности данных
  4. Обработка ИИ происходит на токенизированной версии — модель ИИ никогда не получает восстанавливаемое чувствительное содержимое
  5. Результаты декодируются с использованием сохраненного соответствия для законного бизнес-использования
  6. Соответствие подлежит удержанию в случае судебного разбирательства, когда возникают обязательства по раскрытию

В рамках этой архитектуры оригинальное содержимое никогда не уничтожается. Поставщик ИИ никогда не получает его в пригодной форме. Соответствие токенов сохраняет возможность восстановления оригинального содержимого, когда это требуется по закону. Риск уничтожения улик устраняется, потому что никакие улики не уничтожаются — только временно псевдонимизированы обратимым способом.

Требование псевдонимизации GDPR в соответствии со статьей 4(5) выполняется: дополнительная информация (соответствие токенов) хранится отдельно с соответствующими техническими и организационными мерами. Требование сохранения по федеральным правилам выполняется: оригинальное содержимое может быть восстановлено, когда применяется удержание в случае судебного разбирательства.

Организации, внедряющие меры безопасности ИИ, сталкиваются с бинарным выбором: постоянно анонимизировать и создать риск раскрытия или обратимо псевдонимизировать и одновременно удовлетворить требования безопасности и соблюдения. Средняя стоимость утечки данных ИИ в размере 2,1 миллиона долларов, которая определяет решение о контроле безопасности, должна быть сопоставлена с потенциальной стоимостью санкций за уничтожение улик — которые, в случаях с значительными денежными ставками, могут достигать того же или большего порядка величины.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.