anonym.legal
Назад към блогаGDPR и съответствие

GDPR и наследени архиви на документи...

Правото на GDPR на изтриване се прилага за лични данни „независимо от формата“.

April 21, 20267 мин. четене
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Проблемът с наследения архив, за който никой не говори

Организациите, извършващи одити за съответствие на GDPR, често откриват същата категория скрит риск: базирани на изображения PDF архиви от преди прилагането на програмите за цифровизация.

Юридически фирми с 20 години сканирани клиентски файлове. Доставчици на здравни услуги с десетилетия сканирани формуляри за прием на пациенти. Правителствени агенции със сканирани исторически записи. Банки с изобразени заявления за кредит и документи по сметки.

Тези архиви имат обща характеристика: документите се съхраняват като сканирани изображения (растерни PDF, TIFF или JPEG), а не като текстови цифрови документи. Няма текстов слой за търсене, няма машинно четимо съдържание, което да анализира стандартните PII инструменти. За конвенционален инструмент за анонимизиране тези документи са невидими.

Често срещано погрешно схващане: „Това са само файлове с изображения — GDPR всъщност не се прилага.“

Текстът GDPR е ясен. Член 17, параграф 1 предоставя на субектите на данни правото на изтриване на лични данни. Съображение 26 потвърждава, че анонимизирането на личните данни е стандартът за данни, които вече не се отнасят до физическо лице, което може да бъде идентифицирано. Нито една разпоредба не включва изключение за формати на изображения, получени на хартия.

Адвокатска кантора, която не може да отговори на искане за право на изтриване на клиент, който е бил обслужван преди 15 години — тъй като 15-годишни записи на клиенти съществуват само като PDF файлове със сканирани изображения — има празнина в съответствие с GDPR, а не изключение.

Как работи откриването на PII на базата на изображения

Техническият тръбопровод за откриване на PII на документи, базирани на изображения, включва два етапа:

Етап 1: Оптично разпознаване на символи (OCR)

  • Вход: сканиран PDF или файл с изображение
  • OCR машината извлича текст от сканираното изображение
  • Изход: машинно четим текст с координати на позицията
  • Предизвикателство: почерк, лошо качество на сканиране, избледняло мастило и стари шрифтове намаляват точността на OCR

Етап 2: Откриване на NLP PII

  • Вход: OCR-извлечен текст
  • Разпознаването на именувани обекти (NER) идентифицира имена на лица, организации, местоположения
  • Съпоставянето на шаблони идентифицира SSN, телефонни номера, имейл адреси, номера на сметки
  • Резултат: открити PII субекти с резултати за доверие и препратки към позиция

Етап 3: Анонимизиране

  • Откритите обекти се анонимизират в извлечения текстов изход
  • За PDF файлове с изображения: изходът е анонимизиран текстов документ (оригиналното изображение не е модифицирано — промяната на изображението ще изисква инструменти за редактиране на PDF)
  • Анонимният текст позволява DSAR отговори, изпълнение на заявка за изтриване и документация за съответствие

Качеството на OCR е основното техническо ограничение. За печатни документи с добро качество модерните OCR машини постигат 98-99% точност на знаците. За ръкописни или влошени сканирания, точността може да бъде 85-92%. За целите на откриването на PII, точността на ниво обект (правилно идентифициране, че името се появява в документа, дори ако отделните знаци имат незначителни грешки) обикновено е по-висока от точността на ниво знаци.

Практическа обработка за големи архиви

За организации с големи наследени архиви оперативният работен процес:

Фаза на инвентаризация:

  • Каталогизирайте всички базирани на изображения PDF архиви по изходна система и период от време
  • Оценете обема и приоритизирайте според риска от право на изтриване (първо записите, обърнати към клиента)

Пакетна обработка:

  • Обработвайте архивите на партиди (5 000-10 000 файла на партида е типично)
  • Откриването на OCR + PII работи асинхронно
  • Изход: отчети за откриване на PII за всеки файл и анонимизирани текстови извадки

Изпълнение на правото на изтриване:

  • Субектът на данни подава искане за изтриване с име и съответен период
  • Търсете анонимизирани текстови извадки за псевдонимизирани токени, свързани със субекта на данните
  • Идентифицирайте конкретни документи, съдържащи записи на субекта на данни
  • Обработка на тези специфични документи за редактиране (промяна на оригиналното изображение PDF)
  • Документирайте действието по изтриване

Текущо съответствие:

  • Нови сканирани документи, обработени през същия конвейер преди архивиране
  • Доклади за откриване на PII, запазени като GDPR Член 30 Доказателства за записи на дейности по обработка

Случай на употреба: 20-годишен архив на адвокатска кантора

Адвокатска кантора, извършваща одит GDPR, откри 80 000 базирани на изображения PDF клиентски договори, сканирани между 1998 г. и 2010 г. Стандартните инструменти за лична информация не върнаха нулеви откривания — базираният на изображения формат беше невидим.

Проблемът със съответствието беше конкретен: 15 бивши клиенти бяха подали искания за право на изтриване през предходните 12 месеца. Отговорът на фирмата: „Не можем да потвърдим, че вашите данни са изтрити, тъй като нашите исторически записи са във формат на изображение, който не можем да обработим.“ Това не е отговарящ на изискванията съгласно GDPR член 17.

Подход на обработка:

  • Откриване на OCR + PII на всички 80 000 документа в партиди от 5 000
  • Време за обработка: приблизително 3 седмици партидна обработка
  • Резултат: 80 000 анонимизирани текстови извлечения с доклади за откриване на PII за всеки файл
  • Индекс с възможност за търсене на открити обекти, свързани с идентификатори на документи

Последваща обработка при изпълнение на заявката за изтриване:

  • Средно време за идентифициране на документи за конкретен субект на данни: 4 минути (търсене на анонимни текстови извадки)
  • Брой документи на заявка за изтриване: средно 6-8 документа
  • Редакция на идентифицирани документи: 20-30 минути на заявка

Предишно невъзможно задължение за съответствие: изпълнено. 15-те неуредени искания за изтриване бяха разрешени в рамките на 30 дни след завършване на обработката на архива.

OCR ограничения и управление на качеството

Честната оценка на базираното на OCR откриване на PII за наследени документи изисква потвърждаване на ограниченията:

**Точност на почерка: ** Ръкописните документи (лични изявления, формуляри за кандидатстване, попълнени на ръка) имат по-ниска OCR точност от отпечатаните документи. Откриването на PII в ръкописно съдържание изисква корекция на прага на достоверност.

Влошено качество на сканиране: Документи, сканирани с ниска разделителна способност или с лоша експонация, са с намалена точност на OCR. Предварителната обработка (усилване на контраста, премахване на изкривяването) може да подобри резултатите.

**Необичайни шрифтове и формати: ** Предцифровите шрифтове, легалните формати на документи с необичайни оформления и документите с няколко колони може да имат по-ниска точност на OCR.

Настройка на прага на качеството: За документация за съответствие е подходящо документите да се класифицират по надеждност на OCR: висока степен на сигурност (>95% точност на страницата), подходяща за автоматизирана обработка; средна степен на сигурност (80-95%), подходяща за автоматизирана обработка с човешки преглед на маркирани обекти; ниска степен на доверие (<80%), изискваща ръчен преглед.

За организации с големи архиви от влошени исторически документи, хибриден подход — автоматизирана обработка за документи с висока степен на сигурност, опашка за ръчен преглед за документи с ниска степен на сигурност — осигурява практическа производителност, като същевременно поддържа качеството на съответствие.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.