anonym.legal

By · Last updated 2026-05-31

Назад к блогуGDPR и соблюдение

Не только SSN: анонимизация внутренних идентификаторов организации

У каждой организации есть внутренние идентификаторы — ID сотрудников, номера счетов, ID заказов, — которые в контексте являются персональными данными, но пропускаются стандартными инструментами.

May 31, 20267 мин чтения
custom PII detectionorganizational identifiersre-identification riskGDPR pseudonymizationcustom entity

Не только SSN: анонимизация внутренних идентификаторов вашей организации

Ваш GDPR-инструмент удаляет адреса электронной почты. Удаляет номера телефонов. Удаляет имена. Вы прогоняете через него экспорты из службы поддержки. Затем делитесь результатом с командой аналитики.

Номера клиентских счетов остаются в каждом тикете. ID заказов тоже. Внутренние пользовательские ID — тоже.

Сами по себе эти идентификаторы кажутся безобидными. Без таблицы соответствия по ним нельзя назвать конкретного человека. Но у вашей команды аналитики эта таблица есть. И у вашей CRM. И у вашей базы данных поддержки. Любой, у кого есть доступ, найдёт нужного человека за секунды.

Это нарушение GDPR. Инструмент не сломался. Ему просто никогда не говорили искать ваши идентификаторы.

Что обнаруживают стандартные инструменты для работы с ПДн

Стандартные инструменты охватывают универсальные форматы — то, что используют все организации.

Стандартные инструменты обнаруживают:

  • Номера социального страхования (US SSN, UK NINO, национальные ID в ЕС).
  • Адреса электронной почты.
  • Номера телефонов.
  • Номера кредитных карт.
  • Имена.
  • Номера паспортов и водительских удостоверений.

Стандартные инструменты не обнаруживают:

  • ID сотрудников в вашем формате EMP-XXXXX.
  • Номера клиентских счетов в вашем формате ACC-XXXXXXXX-XX.
  • ID заказов в вашем формате ORD-XXXXXXX.
  • Внутренние пользовательские ID в форматах UUID или кастомных форматах.
  • Специфичные для партнёров коды ссылок.

Стандартные инструменты находят универсальные паттерны. Ваши внутренние идентификаторы — не универсальные. Для их обнаружения нужна индивидуальная настройка.

Риск повторной идентификации

Компания экспортирует тикеты поддержки для проверки качества. Стандартное удаление ПДн убирает имена, адреса электронной почты и номера телефонов. Номера счетов в формате ACC-XXXXXXXX-XX остаются нетронутыми.

Экспорт поступает к команде аналитики. Аналитик объединяет таблицу тикетов с базой данных клиентов по номеру счёта. Человек находится немедленно. Никаких специальных приёмов не нужно. Это обычный SQL-запрос с JOIN.

Статья 4(5) GDPR определяет псевдонимизацию как обработку, при которой данные «больше не могут быть отнесены к конкретному субъекту данных без использования дополнительной информации». Номера счетов этот тест не проходят. Дополнительная информация — ваша база данных клиентов — находится прямо в вашей организации.

«Анонимизированный» экспорт таковым не являлся.

Создание паттернов пользовательских сущностей

Настройка пользовательских сущностей выполняется быстро. Команды по соответствию могут сделать это без привлечения разработчиков.

Шаг 1: перечислите ваши форматы идентификаторов.

Запишите каждый из них. Например: счёт ACC-XXXXXXXX-XX, ID заказа ORD-XXXXXXX, ID сотрудника EMP-XXXXX.

Шаг 2: опишите формат на простом языке.

«Номера счетов начинаются с ACC, затем дефис, 8 цифр, дефис, 2 заглавные буквы».

Генерация паттерна с помощью ИИ возвращает: `ACC-\d{8}-[A-Z]{2}`

Шаг 3: протестируйте на образцах данных.

Загрузите 20–30 документов. Убедитесь, что все вхождения обнаружены. Убедитесь в отсутствии ложных срабатываний.

Шаг 4: выберите метод.

Для идентификаторов, используемых в качестве ключей объединения, где анализ требует связывания записей:

  • Псевдонимизация. Каждый раз заменяйте ACC-00123456-AB на ACC-99876543-XY. Одни и те же входные данные всегда дают одинаковый результат. JOIN-запросы продолжают работать. Исходное значение нельзя найти без ключа.

Для идентификаторов, не нужных в анализе:

  • Редактирование. Замените на [REDACTED]. Просто и надёжно.

Шаг 5: сохраните как общий пресет.

Сохраните пользовательскую сущность (или их набор) в общий пресет. Настройка применяется ко всем режимам использования: пакетным загрузкам, вызовам API, браузерному интерфейсу. Новые члены команды сразу получают полную конфигурацию.

Кейс: 180 000 тикетов поддержки

Компания обнаружила 180 000 тикетов поддержки в аналитическом хранилище. Имена и адреса электронной почты были удалены. Номера счетов — нет. В каждом тикете по-прежнему находилось действующее значение ACC-XXXXXXXX-XX.

Ход устранения проблемы:

  1. Специалист по соответствию определяет паттерн ACC — 15 минут.
  2. Тестирование на 30 образцах тикетов — 20 минут.
  3. Проверка точности — 10 минут.
  4. Пакетная обработка 180 000 тикетов в ночном режиме.
  5. Замена таблиц в хранилище очищенными версиями.

Общее время специалиста по соответствию: 45 минут. Без поддержки пользовательских сущностей исправление потребовало бы инженерного тикета, code review и деплоя. Это занимает недели, а не часы.

Подробнее о том, как пользовательские идентификаторы создают риски в AI-инструментах поддержки, см. в руководстве по GDPR и поддержке с ИИ.

Где распространяются пользовательские идентификаторы

Внутренние идентификаторы встречаются в значительно большем числе мест, чем ожидает большинство команд.

Внутренние документы:

  • Заметки с совещаний со ссылками на счета или заказы.
  • Переписка по электронной почте о клиентских делах.
  • Презентации с данными кейс-стади.

Передаваемые третьим сторонам:

  • Отчёты регуляторам с номерами ссылок на дела.
  • Файлы аудита со ссылками на клиентов.
  • Файлы поставщиков с клиентскими идентификаторами.

Исследования и аналитика:

  • Датасеты о пути клиента.
  • Экспорты для проверки качества поддержки.
  • Обучающие данные для внутренних ML-моделей.

Каждый контекст требует той же настройки пользовательских сущностей для получения подлинно анонимного результата.

Псевдонимизация vs. анонимизация

GDPR проводит чёткое разграничение.

Псевдонимизация заменяет идентификаторы суррогатами. Исходное лицо можно найти повторно, если у кого-то есть таблица соответствия. Такие данные по-прежнему являются персональными данными. Это снижает риск, но не освобождает от обязательств по GDPR.

Анонимизация устраняет возможность повторной идентификации. Анонимные данные не являются персональными. GDPR к ним не применяется.

Номера счетов и ID заказов являются псевдонимными при наличии таблиц соответствия. Их замена фиксированными суррогатами снижает риск, но GDPR продолжает применяться. Замена случайными токенами — с удалением ключа — снимает обязательства по GDPR, но нарушает аналитику на основе JOIN-запросов.

Для передачи третьим сторонам, не имеющим ваших таблиц соответствия, псевдонимизации может быть достаточно. Для внутренней аналитики требуется полная анонимизация или строгий контроль доступа. В руководстве по правовому соответствию описано, как документировать каждый подход для вашего ROPA.

Заключение

Пробел — это не сбой инструмента. Это пробел в настройке. Ни один инструмент не может знать формат ваших номеров счетов, пока вы ему об этом не сообщите.

Настройка пользовательских сущностей закрывает пробел за несколько часов. Команды по соответствию самостоятельно определяют форматы, тестируют их на образцах данных и применяют ко всем режимам использования. Инженерная помощь не нужна.

180 000 незаретушированных номеров счетов оказались там не потому, что инструмент не справился. Они оказались там потому, что инструменту никогда не говорили их искать.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.