Реалността на хетерогенната среда на документи
Попитайте всеки служител по съответствието какви формати на документи трябва да анонимизират за отговорите DSAR и списъкът е предсказуем: договори Word, PDF фактури, Excel клиентски данни, CSV системни експорти и понякога JSON регистрационни файлове или XML емисии.
Попитайте какви инструменти използват и отговорът обикновено е: три до пет различни инструмента, всеки с различно покритие на обекта, различни конфигурационни интерфейси и различни формати на журнал за одит.
Тази фрагментация не е резултат от лошо планиране. Това отразява липсата на един-единствен инструмент, който наистина да обработва всички формати на производствени документи с еквивалентни възможности. За всеки формат съществуват специализирани инструменти. Единен инструмент, който обработва всички формати с една и съща машина, едни и същи типове обекти и една и съща одитна пътека, в миналото е рядкост.
Проблемът със съответствието, който това създава: DSAR отговорите, които обхващат множество типове документи, се анонимизират с помощта на множество инструменти с различни стандарти. Произтичащото несъответствие — обект X е анонимизиран в PDF, но не и в експортирания файл Excel, тъй като инструментът Excel използва различен списък с обекти — създава точно този вид пропуски в съответствие, които DPA одитите извеждат на повърхността.
Специфични за формата предизвикателства
Всеки формат на документ представлява различни технически предизвикателства за откриване на PII:
PDF файловете могат да бъдат оригинален текст (с възможност за избор) или базирани на изображения (сканирани). PDF файловете, базирани на изображения, изискват OCR преди анализ на текст, което въвежда нива на грешки. Родните PDF файлове може да имат текстови фрагменти (всяка дума, съхранена като отделен текстов обект), които нарушават откриването на обект, обхващащ границите на думата. Оформленията с няколко колони изискват реконструкция на реда на четене преди анализ на текста.
Word (DOCX)
Документите DOCX съдържат текста на документа в XML, но също така: заглавки, долни колонтитули, коментари, проследени промени, текстови полета и бележки под линия. PII в горните/долните колонтитули (адреси на бланки, информация за контакт) често се пропускат от инструменти, които анализират само основната част. Проследените промени може да съдържат изтрит текст с PII, който не се вижда в изобразения документ, но присъства във файловата структура.
Excel (XLSX)
Двуизмерната структура на Excel означава, че PII може да се появи във всяка клетка в стотици колони и хиляди редове. Заглавките на колоните предоставят контекстни сигнали („SSN“, „Email“, „Phone“), които NER моделите не получават само от текстов анализ. Стойностите на клетките могат да се съхраняват като числа (дати, SSN без тирета), които изискват интерпретация в зависимост от формата. Няколко листа може да съдържат свързани PII, които трябва да се обработват последователно.
CSV
CSV е структурно подобен на Excel, но без заглавки на колони в много реализации. Стойностите на полетата в колоните „бележки“ или „коментари“ са свободен текст и могат да съдържат PII заедно със съдържание, което не е PII. Проблеми с кодирането (UTF-8 срещу Latin-1) могат да доведат до неуспешно откриване на знаци, различни от ASCII, в европейски PII.
JSON
Вложената структура означава, че PII може да бъде дълбоко вграден (user.address.street.line1). Стойностите на масива изискват итерация. Едно и също име на поле в различни обекти може да има различни характеристики на PII. Анализът, съобразен със схемата (като се знае, че полетата „имейл“ винаги съдържат имейл адреси) трябва да се комбинира с откриване въз основа на съдържанието.
Защо несъответствието между форматите е проблем за съответствие
Сценарият GDPR DSAR илюстрира конкретно риска от несъответствие:
Субект на данни подава DSAR, изисквайки всички лични данни, съхранявани за него. Екипът за съответствие локализира:
- 3 документа Word (договори, кореспонденция)
- 2 PDF документа (фактури, преписи за поддръжка)
- 1 Excel електронна таблица (данни за клиентски акаунт)
- 1 CSV експорт (регистрационни файлове за достъп до системата)
Екипът за съответствие използва инструмент A за PDF файлове (отлично покритие), инструмент B за Word (добро покритие, но пропуска горни/долни колонтитули), Excel макрос за XLSX (покрива очевидни колони, пропуска полета със свободен текст) и няма инструмент за CSV (ръчен преглед).
Субектът на данните получава анонимизиран пакет. В електронната таблица Excel колоната със свободен текст „бележки на мениджъра“ не е обработена от макроса. В документите Word адресът на бланка в заглавката на страницата е пропуснат от инструмент Б. И двата елемента съдържат PII, които записите на субекта на данните показват, че са поискали да бъдат анонимни.
Съгласно GDPR член 17 (право на изтриване) или член 15 (право на достъп), екипът за съответствие е предоставил непълен DSAR отговор. Ако субектът на данните или DPA открият празнината, несъгласуваните инструменти са фактор, допринасящ за несъответствието.
Съгласуваност на формата като изискване за съответствие
Най-строгите рамки за съответствие на DSAR уточняват не само кои типове PII трябва да бъдат анонимизирани, но че един и същ стандарт за анонимизиране трябва да се прилага за всички формати в даден отговор.
Това означава:
- Същите типове обекти, проверени в Word, PDF, Excel, CSV и JSON
- Приложени са същите прагове на достоверност
- Използвани едни и същи заместващи токени (последователни токени за анонимизиране в документи в един набор от отговори)
- Единна одитна пътека, обхващаща всички формати в отговора
Поддръжката на формат на една платформа позволява предварително зададени конфигурации, които се прилагат еднакво във всички формати. Предварителната настройка „DSAR EU Individuals“, конфигурирана за вашата организация, проверява едни и същи 32 типа субекти в PDF договор, Excel клиентски запис и CSV системен журнал — тъй като една и съща машина обработва и трите.
Пакетна обработка на комплекти със смесен формат
За съответствие на DSAR в мащаб, пакетната обработка трябва да обработва комплекти със смесен формат като единица:
Вход: Папка, съдържаща 15 файла в различни формати (PDF, DOCX, XLSX, CSV), представляващи всички данни, съхранявани за един субект на данни
Обработва се:
- Откриване на формат на файл
- Подходящ парсер за всеки формат (извличане на PDF текст, DOCX XML анализ, XLSX итерация на клетки, CSV поле анализ)
- Същият конвейер NLP, приложен към извлечен текст от всички формати
- Една и съща предварително зададена конфигурация, приложена към всички файлове в пакета
- Последователен набор от токени за анонимизиране (ако "Джон Смит" се появява в 3 различни документа, един и същ токен за замяна се използва във всички 3)
Изход:
- Анонимни версии на всичките 15 файла в техните оригинални формати
- Отчет за одит в различни формати, показващ всички открити обекти, източник на документи, увереност и предприети действия
Докладът за одит в различни формати е документацията за съответствие: един документ, доказващ, че всичките 15 файла са обработени с един и същи стандарт, със същото покритие на обекта, при една и съща конфигурация.
За одитите на DPA това е значително по-защитимо от „обработихме PDF файлове с Adobe, Excel с макрос и CSV ръчно“.
Практическа интеграция за DSAR екипи
За екипите за съответствие, работещи с редовни DSAR томове, работният процес с поддръжка на унифициран формат:
- Съберете всички документи за субекта на данните (ръчно събиране от системи)
- Създайте пакет DSAR в платформа за анонимизиране (плъзнете всички файлове независимо от формата)
- Изберете предварително зададено „DSAR EU Individuals“ (покрива всички изисквани от GDPR типове обекти)
- Стартирайте групова обработка
- Изтеглете анонимизирани резултати и консолидиран одитен доклад
- Проверка на качеството: проверете на място 2-3 документа от партидния изход
- Пакетирайте анонимизирани документи за отговор на субекта на данните
- Прикачете одитен доклад към DSAR досие
Ръчното събиране (стъпка 1) остава основният разход за време. Стъпки 2-8 са под 10 минути за типична партида DSAR. Одитният доклад, генериран в стъпка 5, предоставя документацията за съответствие за изискванията на принципа за отчетност GDPR.
Източници:
- [GDPR член 15: Право на достъп на субекта на данните] (https://gdpr-info.eu/art-15-gdpr/)
- ICO: Указания за заявки за достъп на субекта на данни
- EDPB: Указания относно правото на достъп