Presidio не охватывает 220+ сущностей GDPR: пробел в покрытии для ЕС
Обновлено в 2026 году
Microsoft Presidio поставляется примерно с 40 распознавателями сущностей по умолчанию. Для развёртывания в США этого достаточно: охватываются SSN, американские паспорта, водительские удостоверения, кредитные карты и электронные адреса.
Для развёртывания в ЕС пробел огромен. GDPR охватывает все персональные данные ЕС вне зависимости от гражданства субъекта. Европейским командам нужны распознаватели, которых в Presidio нет.
Что входит в Presidio
Наборы по умолчанию в Presidio делятся на четыре группы.
Идентификаторы, ориентированные на США:
- Номер социального страхования США (SSN)
- Номер паспорта США
- Номер водительского удостоверения США
- Номер банковского счёта США
- ITIN (США)
- Номер медицинской лицензии США
Универсальные идентификаторы:
- Адрес электронной почты
- Номер телефона
- IP-адрес
- Номер кредитной карты
- Адрес криптовалютного кошелька
- URL
Текстовые сущности (на основе NER):
- PERSON (человек)
- LOCATION (место)
- ORGANIZATION (организация)
- DATE_TIME (дата и время)
Ограниченный международный охват:
- Номер NHS Великобритании
- Национальный страховой номер Великобритании (NINO)
- Некоторые финансовые идентификаторы
Итого: около 40 распознавателей.
Что нужно европейским командам
Финансовые идентификаторы
IBAN присутствует в большинстве деловых файлов ЕС: в платёжных документах, счетах-фактурах и платёжных ведомостях. IBAN следует стандарту ISO 13616. В Presidio нет распознавателя IBAN.
Пример: немецкий финтех. В каждом платёжном файле есть IBAN. Без обнаружения IBAN инструмент ищет только номера кредитных карт. Основной платёжный идентификатор ЕС пропускается — а значит, ключевые персональные данные, защищённые GDPR, остаются необнаруженными.
Национальные идентификационные номера налогоплательщика
Ни один из перечисленных ниже не входит в набор Presidio по умолчанию:
- Немецкий Steueridentifikationsnummer: 11 цифр
- Французский NIR: 15 цифр с контрольным ключом
- Итальянский Codice Fiscale: 16 символов с контрольной суммой
- Испанский NIF/NIE: 9 символов с буквой
- Нидерландский BSN: 9 цифр с валидацией по алгоритму elfproef
Европейская команда по расчёту заработной платы работает с файлами из множества государств-членов. Без этих распознавателей она пропустит наиболее чувствительные идентификаторы в этих записях.
Национальные медицинские идентификаторы
Номер NHS Великобритании охвачен. Следующие — нет:
- Французский NIR (он же медицинский идентификатор)
- Немецкий Krankenkassennummer
- Итальянский Codice Fiscale (он же медицинский идентификатор)
- Нидерландский BSN (используется для медицинского страхования)
Европейским медицинским командам эти идентификаторы необходимы для защиты данных на уровне GDPR.
Водительские удостоверения ЕС
Водительские удостоверения ЕС регулируются Директивой 2006/126/EC. Каждое государство-член имеет собственный формат. Буквенно-цифровая структура различается по странам. В Presidio есть только распознаватели водительских удостоверений США. Поддержка водительских удостоверений ЕС отсутствует — данные проходят необнаруженными.
Номера НДС
Номера НДС ЕС присутствуют в каждой сделке B2B. Формат: двухбуквенный код страны плюс 8–12 цифр. В Presidio нет распознавателя НДС. Номера НДС связаны с компаниями и их владельцами и являются персональными данными по GDPR.
Подробнее об обязательствах по GDPR — в ресурсах по соответствию GDPR.
Стоимость пользовательских распознавателей
Когда европейские команды обнаруживают этот пробел, они создают пользовательские распознаватели. Это требует реального времени.
Время на один распознаватель (приблизительно):
- Изучение формата: 1–2 часа
- Написание класса на Python: 2–4 часа
- Создание регулярного выражения и валидации: 2–4 часа
- Добавление контекстных слов: 1–2 часа
- Написание тестов: 2–3 часа
- Развёртывание и проверка: 1–2 часа
Итого 9–17 часов на один распознаватель. Это лишь приблизительные оценки.
Пример: немецкому финтеху нужны четыре распознавателя.
IBAN, Steuer-ID, водительское удостоверение ЕС, немецкий НДС.
- 4 распознавателя по 13 часов каждый = 52 часа работы
- По €100 в час: около €5 200
Это только первоначальная разработка. Форматы меняются со временем. Возникают новые граничные случаи. Обновления API Presidio могут что-то сломать. Каждое изменение требует, чтобы разработчик проверил и исправил код. Текущая работа добавляет расходы год за годом.
Управляемая библиотека
anonym.legal расширяет Presidio более чем 285 типами сущностей. Команда поддерживает библиотеку в актуальном состоянии. Идентификаторы ЕС включены с первого дня.
Что выходит за рамки стандартного набора Presidio:
- IBAN во всех форматах государств-членов ЕС
- Национальные идентификаторы налогоплательщика: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL и другие
- Национальные медицинские идентификаторы ЕС
- Номера НДС (формат ЕС)
- Форматы водительских удостоверений ЕС
- Форматы европейских паспортов
- Варианты сущностей на 48 поддерживаемых языках
Когда Германия обновляет формат идентификационного номера налогоплательщика, обновление поставляется вместе с сервисом. От вашей команды не требуется никаких pull request.
Для идентификаторов, не включённых в библиотеку, конструктор пользовательских сущностей позволяет добавлять шаблоны без написания кода на Python.
Подробнее о безопасности и соответствии требованиям, обновлениях и журналах аудита — в разделе безопасность и соответствие.
Пример: немецкий финтех
Немецкому финтеху необходимо обнаруживать в клиентских файлах IBAN, BIC, Steuer-ID и Handelsregisternummer.
Уровень обнаружения по умолчанию в Presidio для этих четырёх типов: 0%.
Ни один из них не входит в стандартную библиотеку. Это не слабая точность — это полное отсутствие обнаружения. Инструмент не только частично их пропускает — он вообще не видит их.
Сравнение затрат:
| Подход | Затраты за первый год |
|---|---|
| Пользовательские распознаватели (4 × 13 ч по €100/ч) | ~€5 200 плюс текущее обслуживание |
| Управляемая библиотека сущностей (тариф Pro) | €180 в год, все четыре типа включены |
Разрыв — примерно 29-кратный в первый год. С каждым последующим годом расходы на пользовательское обслуживание растут. Цена управляемого сервиса остаётся неизменной.
Заключение
Наборы Presidio по умолчанию хорошо подходят для американских сценариев. Для развёртывания в ЕС в рамках GDPR они недостаточны. Пробел требует либо разработки пользовательских распознавателей, либо использования управляемого сервиса.
Для европейских команд, которым необходимо соответствие требованиям и которые ограничены в инженерном времени, готовая библиотека сущностей ЕС устраняет проект разработки объёмом 50+ часов. Файлы можно обрабатывать с первого дня без написания пользовательского кода.