anonym.legal
Назад к блогуGDPR и соблюдение

GDPR и архивы устаревших документов...

Право на стирание данных по GDPR распространяется на персональные данные «независимо от формата».

April 21, 20267 мин чтения
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Проблема устаревших архивов, о которой никто не говорит

При проведении аудитов соответствия GDPR организации нередко обнаруживают один и тот же вид скрытых рисков: архивы PDF на основе изображений, созданные до внедрения программ оцифровки.

Юридические фирмы с 20-летними архивами сканов клиентских досье. Медицинские учреждения с десятилетиями сканов форм приёма пациентов. Государственные органы с отсканированными историческими записями. Банки с изображениями заявок на кредит и документов по счетам.

Все эти архивы объединяет одна общая черта: документы хранятся как сканированные изображения (растровый PDF, TIFF или JPEG), а не как текстовые цифровые документы. Никакого текстового слоя для поиска, никакого машиночитаемого контента для стандартных инструментов защиты PII. Для обычного инструмента анонимизации такие документы невидимы.

Распространённое заблуждение: «Это просто файлы изображений — GDPR на них практически не распространяется».

Текст GDPR однозначен. Статья 17(1) предоставляет субъектам данных право на стирание персональных данных. Рецитал 26 подтверждает, что анонимизация персональных данных является стандартом для данных, которые более не относятся к идентифицируемому физическому лицу. Ни одно из этих положений не предусматривает исключений для форматов изображений, полученных с бумажных носителей.

Юридическая фирма, которая не может ответить на запрос об удалении данных от клиента, обратившегося 15 лет назад, — потому что записи о нём существуют только в виде сканированных PDF-изображений, — имеет пробел в соответствии GDPR, а не исключение.

Как работает обнаружение PII на основе изображений

Технический конвейер для обнаружения PII в документах на основе изображений включает два этапа:

Этап 1: Оптическое распознавание символов (OCR)

  • Входные данные: сканированный PDF или файл изображения
  • Движок OCR извлекает текст из сканированного изображения
  • Выходные данные: машиночитаемый текст с координатами позиций
  • Сложность: рукописный текст, плохое качество сканирования, выцветшие чернила и устаревшие шрифты снижают точность OCR

Этап 2: Обнаружение PII с помощью NLP

  • Входные данные: текст, извлечённый с помощью OCR
  • Распознавание именованных сущностей (NER) идентифицирует имена людей, организации, местоположения
  • Сопоставление шаблонов идентифицирует номера социального страхования, телефонные номера, адреса электронной почты, номера счетов
  • Выходные данные: обнаруженные сущности PII с оценками достоверности и ссылками на позиции

Этап 3: Анонимизация

  • Обнаруженные сущности анонимизируются в выходном тексте
  • Для PDF-изображений: выходными данными является анонимизированный текстовый документ (исходное изображение не изменяется — для этого потребуются инструменты редактирования PDF)
  • Анонимизированный текст позволяет выполнять ответы на запросы DSAR, выполнение запросов на удаление и составление документации о соответствии

Качество OCR является основным техническим ограничением. Для высококачественных печатных документов современные движки OCR достигают 98–99% точности на уровне символов. Для рукописного текста или деградировавших сканов точность может составлять 85–92%. Для целей обнаружения PII точность на уровне сущностей (правильная идентификация имени в документе, даже если отдельные символы имеют незначительные ошибки) обычно выше, чем на уровне символов.

Практическая обработка крупных архивов

Для организаций с большими устаревшими архивами операционный рабочий процесс:

Фаза инвентаризации:

  • Каталогизация всех архивов PDF на основе изображений по исходной системе и диапазону дат
  • Оценка объёма и приоритизация по риску удаления (сначала записи, связанные с клиентами)

Пакетная обработка:

  • Обработка архивов партиями (типично 5 000–10 000 файлов за партию)
  • OCR + обнаружение PII выполняются асинхронно
  • Результат: отчёты об обнаружении PII по каждому файлу и анонимизированные текстовые извлечения

Выполнение запросов на удаление:

  • Субъект данных подаёт запрос на удаление с именем и соответствующим периодом
  • Поиск анонимизированных текстовых извлечений по псевдонимизированным токенам, связанным с субъектом данных
  • Определение конкретных документов, содержащих записи субъекта данных
  • Обработка этих конкретных документов для редактирования (изменение исходного PDF-изображения)
  • Документирование действия по удалению

Постоянное соответствие:

  • Новые отсканированные документы обрабатываются через тот же конвейер перед архивированием
  • Отчёты об обнаружении PII хранятся как доказательства учёта деятельности по обработке согласно Статье 30 GDPR

Кейс: 20-летний архив юридической фирмы

Юридическая фирма, проводя аудит GDPR, обнаружила 80 000 клиентских договоров в формате PDF на основе изображений, отсканированных с 1998 по 2010 год. Стандартные инструменты защиты PII не выявили ни одного случая — формат на основе изображений был невидим.

Проблема соответствия была конкретной: 15 бывших клиентов подали запросы на удаление данных за предшествующие 12 месяцев. Ответ фирмы: «Мы не можем подтвердить, что ваши данные были удалены, поскольку наши исторические записи хранятся в формате изображений, которые мы не можем обработать». Это не соответствующий ответ согласно Статье 17 GDPR.

Подход к обработке:

  • OCR + обнаружение PII для всех 80 000 документов партиями по 5 000
  • Время обработки: приблизительно 3 недели пакетной обработки
  • Результат: 80 000 анонимизированных текстовых извлечений с отчётами об обнаружении PII по каждому файлу
  • Поисковый индекс обнаруженных сущностей, связанных с идентификаторами документов

Выполнение запросов на удаление после обработки:

  • Среднее время определения документов для конкретного субъекта данных: 4 минуты (поиск по анонимизированным текстовым извлечениям)
  • Количество документов на один запрос об удалении: в среднем 6–8 документов
  • Редактирование выявленных документов: 20–30 минут на запрос

Ранее невыполнимое обязательство по соответствию выполнено. 15 неурегулированных запросов на удаление были разрешены в течение 30 дней после завершения обработки архива.

Ограничения OCR и управление качеством

Честная оценка обнаружения PII на основе OCR для устаревших документов требует признания ограничений:

Точность рукописного текста: Рукописные документы (личные заявления, заявки, заполненные вручную) имеют более низкую точность OCR, чем печатные документы. Для обнаружения PII в рукописном контенте требуется корректировка порога достоверности.

Деградировавшее качество сканирования: Документы, отсканированные с низким разрешением или с плохой экспозицией, имеют сниженную точность OCR. Предварительная обработка (улучшение контраста, выравнивание) может улучшить результаты.

Необычные шрифты и форматы: Дофотоцифровые шрифты, юридические документы с нестандартными макетами и многоколоночные документы могут иметь более низкую точность OCR.

Установка порогов качества: Для документации о соответствии целесообразно классифицировать документы по достоверности OCR: высокая достоверность (>95% точности страницы) — подходит для автоматизированной обработки; средняя достоверность (80–95%) — подходит для автоматизированной обработки с проверкой помеченных сущностей человеком; низкая достоверность (<80%) — требует ручной проверки.

Для организаций с большими архивами деградировавших исторических документов гибридный подход — автоматизированная обработка высокодостоверных документов, очередь ручной проверки для низкодостоверных — обеспечивает практическую пропускную способность при сохранении качества соответствия.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.