PII се крие в приложните журнали

Журналите на приложенията са една от най-пренебрегваните GDPR повърхности в инженерството. Не защото инженерите пренебрегват закона. Защото данните на потребителите попадат в журналните файлове по случайност.

Един JSON журнал за заявка може да съдържа четири полета с PII:

{
  "timestamp": "2025-11-14T09:22:13Z",
  "level": "ERROR",
  "endpoint": "/api/users/profile",
  "user_email": "sarah.johnson@company.com",
  "client_ip": "82.123.45.67",
  "user_agent": "Mozilla/5.0",
  "error": "ValidationError: phone format",
  "input_value": "+49 176 1234 5678"
}

Този единствен запис съдържа имейл, IP адрес и телефонен номер. Умножете го по милиони дневни API извиквания. Резултатът е мащабна дейност с PII. Изисква правно основание, ограничения и контрол.

Екипите споделят журнални файлове с външни страни през цялото време:

Фирми за тестване на проникване получават записи за картографиране на поведението на приложението
Външни консултанти използват примерни журнали за намиране на бавни точки
Платформи за журнали (Elastic, Datadog, Splunk) получават пълни изходни потоци
SRE изпълнители получават достъп до записи по време на инциденти
Dev екипи в други правни субекти получават файлове за отстраняване на грешки

Всяко споделяне повдига въпроси по член 28 от GDPR. Получателят обработващ ли е? Има ли Споразумение за обработване на данни? Имат ли правно основание да виждат данните на потребителите в тези файлове?

Платформите за журнали са чест пропуск. Изпращането на изходни данни с реални имейли и IP адреси на потребители към Elastic Cloud или Datadog създава връзка за обработване. Тази връзка изисква DPA, стандартни клаузи и инструмент за прехвърляне, ако платформата се намира извън ЕС. Всяко от тях отнема време и правен преглед.

По-простият начин: изчистете данните на потребителите преди файловете да напуснат вашата система. Прочетете нашия преглед на съответствието за пълните правила по член 28.

Защо JSON структурата прави засичането трудно

JSON журналните файлове варират по структура. Общото сканиране на текст не е достатъчно.

Дълбочина на влагане: Данните на потребителите се появяват на произволна дълбочина. Полето request.headers.x-forwarded-for съдържа IP адреси. Полето response.body.errors[0].field_value може да съдържа потребителски вход. Плоското сканиране на текст пропуска полета, заровени в вложени пътища.

Несъответстващи схеми: Всеки API endpoint създава свои изходни форми. Auth файловете изглеждат различно от файловете за плащания. Файловете за актуализиране на профила изглеждат различно и от двете. Подход с фиксиран път пропуска данни на потребители, появяващи се на необичайни пътища в контексти на грешки.

Технически стойности, смесени с PII: Стекови следи, кодове на грешки и времеви маркери трябва да остават непокътнати. Прекомерното изчистване заличава необходими полета и прави файла безполезен.

Правилният подход е засичане, базирано на съдържанието. Намерете данните на потребителите по това какво са -- имейл образец, IP формат, наименован обект -- а не по това къде се намират в структурата. Това обработва променливи схеми без нужда от настройка за всеки endpoint.

Последователната замяна запазва журналите полезни

Ключовото изискване е референтна цялост. Ако sarah.johnson@company.com се появява в 47 записа в верига на заявки, всички 47 трябва да се съпоставят с една и съща стойност.

Правила за съпоставяне:

sarah.johnson@company.com --> user1@example.com (една стойност в целия файл)
82.123.45.67 --> 192.0.2.1 (IP за документация RFC 5737 -- очевидно не е реален)
+49 176 1234 5678 --> +49 XXX XXX XXXX (маскиран)

С това съпоставяне, разработчик може да проследи user1@example.com в 47 записа, да реконструира веригата на заявките и да отстрани грешката -- без да вижда реални данни на потребителите.

Тези полета с метаданни остават непроменени:

Времеви маркери (не са потребителски данни)
Кодове и типове грешки (не са потребителски данни)
Стекови следи (може да съдържат технически ID, не са потребителски данни)
HTTP методи, пътища, кодове за статус (не са потребителски данни)
Метрични стойности и данни за латентност (не са потребителски данни)

Резултатът е файл, работещ за debug работа. Той не съдържа реални данни на потребителите. Вижте нашия речник за разликата между анонимизация и псевдонимизация по GDPR.

Случай на употреба: Споделяне на журнали за тест на проникване

SaaS компания проведе тримесечен преглед на сигурността с外部 екип за тест на проникване. Обхватът изисква 90 дни производствени API изходни данни за картографиране на auth потоците и анализ на образците на грешки.

Суров обем: 180 MB JSON файлове. Брой PII: 4 200 уникални имейла на потребители, 1 800 уникални IP адреси, 340 частични номера на сметки в контексти на грешки.

Без предварително изчистване на данните на потребителите, споделянето на тези файлове би изисквало:

DPA с фирмата за тест на проникване
Инструмент за прехвърляне по член 46 от GDPR (фирмата се намираше извън ЕС)
Преглед на уведомленията до субектите на данни

Всяко от тях добавя правна работа и време.

С приложено изчистване на PII:

Време на обработката: 25 минути за 180 MB
Изход: 180 MB структурно идентични файлове, всички имейли и IP адреси заменени с безопасни стойности
Резултат: екипът за тест на проникване получи пълен контекст; нито едни реални данни на потребители не стигнаха до тях
GDPR резултат: не е необходим DPA -- изчистеният изход не е потребителски данни по GDPR

Вижте нашите ЧЗВ за чести въпроси относно това, което се счита за анонимно по GDPR.

Интегриране на изчистването на PII в CI/CD

За екипи, споделящи изходни данни редовно, тази стъпка може да работи в рамките на съществуващите тръбопроводи.

Ротация на журнали:

Скриптът за ротация се изпълнява нощно
Стъпката за изчистване се изпълнява преди архивиране или изпращане до платформи за журнали
Изчистените файлове отиват към外部 системи
Оригиналните файлове остават вътрешни с пълно задържане

Скрипт преди споделяне:

Инженерът трябва да сподели примерни данни с изпълнител
Изпълнява скрипта: input=raw-logs/ output=clean-logs/
Споделя папката clean-logs/
Не е необходим ръчен преглед на PII

Подход с sidecar:

Sidecar изчиства изходния поток преди препращане
Изчистването в реално време поддържа полезността за анализ на журнали
Платформата получава нула реални данни на потребители

Интегриране с политика за задържане

Член 5(1)(д) от GDPR изисква ограничаване на съхранението. Изчистването на PII се вписва в всяка политика за задържане.

Суровите изходни данни се пазят 7 дни (за ежедневна debug работа)
Изчистените версии се пазят 90 дни (за анализ на тенденции и преглед на инциденти)
Стъпката за изчистване се изпълнява на 7-ия ден

Това удовлетворява ограничаването на съхранението. Елиминира риска от дълготрайно пазене на суровите изходни данни.

Източници

Свързани статии

Технически

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

Започнете безплатен пробен период Вижте функции

Анонимизиране на JSON логове по GDPR: Запазете отстраняването на грешки

PII се крие в приложните журнали

Защо JSON структурата прави засичането трудно

Последователната замяна запазва журналите полезни

Случай на употреба: Споделяне на журнали за тест на проникване

Интегриране на изчистването на PII в CI/CD

Интегриране с политика за задържане

Източници

Свързани статии

Presidio: 3-седмична настройка срещу управляван PII

От 6 седмици до 3 дни: настройка на управляван PII API

Безплатното разпознаване на PII данни струва 13 000 EUR годишно

Готови ли сте да защитите данните си?

Анонимизиране на JSON логове по GDPR: Запазете отстраняването на грешки

PII се крие в приложните журнали

Споделянето на журнали с трети страни повишава GDPR риска

Защо JSON структурата прави засичането трудно

Последователната замяна запазва журналите полезни

Случай на употреба: Споделяне на журнали за тест на проникване

Интегриране на изчистването на PII в CI/CD

Интегриране с политика за задържане

Източници

Свързани статии

Presidio: 3-седмична настройка срещу управляван PII

От 6 седмици до 3 дни: настройка на управляван PII API

Безплатното разпознаване на PII данни струва 13 000 EUR годишно

Готови ли сте да защитите данните си?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow