anonym.legal

By · Last updated 2026-06-05

Назад к блогуGDPR и соблюдение

Presidio не охватывает 220+ сущностей GDPR

Presidio поставляется примерно с 40 распознавателями сущностей по умолчанию, ориентированными на американские идентификаторы. Европейским организациям нужны IBAN, Codice Fiscale и другие.

June 5, 20267 мин чтения
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Presidio не охватывает 220+ сущностей GDPR: пробел в покрытии для ЕС

Обновлено в 2026 году

Microsoft Presidio поставляется примерно с 40 распознавателями сущностей по умолчанию. Для развёртывания в США этого достаточно: охватываются SSN, американские паспорта, водительские удостоверения, кредитные карты и электронные адреса.

Для развёртывания в ЕС пробел огромен. GDPR охватывает все персональные данные ЕС вне зависимости от гражданства субъекта. Европейским командам нужны распознаватели, которых в Presidio нет.

Что входит в Presidio

Наборы по умолчанию в Presidio делятся на четыре группы.

Идентификаторы, ориентированные на США:

  • Номер социального страхования США (SSN)
  • Номер паспорта США
  • Номер водительского удостоверения США
  • Номер банковского счёта США
  • ITIN (США)
  • Номер медицинской лицензии США

Универсальные идентификаторы:

  • Адрес электронной почты
  • Номер телефона
  • IP-адрес
  • Номер кредитной карты
  • Адрес криптовалютного кошелька
  • URL

Текстовые сущности (на основе NER):

  • PERSON (человек)
  • LOCATION (место)
  • ORGANIZATION (организация)
  • DATE_TIME (дата и время)

Ограниченный международный охват:

  • Номер NHS Великобритании
  • Национальный страховой номер Великобритании (NINO)
  • Некоторые финансовые идентификаторы

Итого: около 40 распознавателей.

Что нужно европейским командам

Финансовые идентификаторы

IBAN присутствует в большинстве деловых файлов ЕС: в платёжных документах, счетах-фактурах и платёжных ведомостях. IBAN следует стандарту ISO 13616. В Presidio нет распознавателя IBAN.

Пример: немецкий финтех. В каждом платёжном файле есть IBAN. Без обнаружения IBAN инструмент ищет только номера кредитных карт. Основной платёжный идентификатор ЕС пропускается — а значит, ключевые персональные данные, защищённые GDPR, остаются необнаруженными.

Национальные идентификационные номера налогоплательщика

Ни один из перечисленных ниже не входит в набор Presidio по умолчанию:

  • Немецкий Steueridentifikationsnummer: 11 цифр
  • Французский NIR: 15 цифр с контрольным ключом
  • Итальянский Codice Fiscale: 16 символов с контрольной суммой
  • Испанский NIF/NIE: 9 символов с буквой
  • Нидерландский BSN: 9 цифр с валидацией по алгоритму elfproef

Европейская команда по расчёту заработной платы работает с файлами из множества государств-членов. Без этих распознавателей она пропустит наиболее чувствительные идентификаторы в этих записях.

Национальные медицинские идентификаторы

Номер NHS Великобритании охвачен. Следующие — нет:

  • Французский NIR (он же медицинский идентификатор)
  • Немецкий Krankenkassennummer
  • Итальянский Codice Fiscale (он же медицинский идентификатор)
  • Нидерландский BSN (используется для медицинского страхования)

Европейским медицинским командам эти идентификаторы необходимы для защиты данных на уровне GDPR.

Водительские удостоверения ЕС

Водительские удостоверения ЕС регулируются Директивой 2006/126/EC. Каждое государство-член имеет собственный формат. Буквенно-цифровая структура различается по странам. В Presidio есть только распознаватели водительских удостоверений США. Поддержка водительских удостоверений ЕС отсутствует — данные проходят необнаруженными.

Номера НДС

Номера НДС ЕС присутствуют в каждой сделке B2B. Формат: двухбуквенный код страны плюс 8–12 цифр. В Presidio нет распознавателя НДС. Номера НДС связаны с компаниями и их владельцами и являются персональными данными по GDPR.

Подробнее об обязательствах по GDPR — в ресурсах по соответствию GDPR.

Стоимость пользовательских распознавателей

Когда европейские команды обнаруживают этот пробел, они создают пользовательские распознаватели. Это требует реального времени.

Время на один распознаватель (приблизительно):

  • Изучение формата: 1–2 часа
  • Написание класса на Python: 2–4 часа
  • Создание регулярного выражения и валидации: 2–4 часа
  • Добавление контекстных слов: 1–2 часа
  • Написание тестов: 2–3 часа
  • Развёртывание и проверка: 1–2 часа

Итого 9–17 часов на один распознаватель. Это лишь приблизительные оценки.

Пример: немецкому финтеху нужны четыре распознавателя.

IBAN, Steuer-ID, водительское удостоверение ЕС, немецкий НДС.

  • 4 распознавателя по 13 часов каждый = 52 часа работы
  • По €100 в час: около €5 200

Это только первоначальная разработка. Форматы меняются со временем. Возникают новые граничные случаи. Обновления API Presidio могут что-то сломать. Каждое изменение требует, чтобы разработчик проверил и исправил код. Текущая работа добавляет расходы год за годом.

Управляемая библиотека

anonym.legal расширяет Presidio более чем 285 типами сущностей. Команда поддерживает библиотеку в актуальном состоянии. Идентификаторы ЕС включены с первого дня.

Что выходит за рамки стандартного набора Presidio:

  • IBAN во всех форматах государств-членов ЕС
  • Национальные идентификаторы налогоплательщика: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL и другие
  • Национальные медицинские идентификаторы ЕС
  • Номера НДС (формат ЕС)
  • Форматы водительских удостоверений ЕС
  • Форматы европейских паспортов
  • Варианты сущностей на 48 поддерживаемых языках

Когда Германия обновляет формат идентификационного номера налогоплательщика, обновление поставляется вместе с сервисом. От вашей команды не требуется никаких pull request.

Для идентификаторов, не включённых в библиотеку, конструктор пользовательских сущностей позволяет добавлять шаблоны без написания кода на Python.

Подробнее о безопасности и соответствии требованиям, обновлениях и журналах аудита — в разделе безопасность и соответствие.

Пример: немецкий финтех

Немецкому финтеху необходимо обнаруживать в клиентских файлах IBAN, BIC, Steuer-ID и Handelsregisternummer.

Уровень обнаружения по умолчанию в Presidio для этих четырёх типов: 0%.

Ни один из них не входит в стандартную библиотеку. Это не слабая точность — это полное отсутствие обнаружения. Инструмент не только частично их пропускает — он вообще не видит их.

Сравнение затрат:

ПодходЗатраты за первый год
Пользовательские распознаватели (4 × 13 ч по €100/ч)~€5 200 плюс текущее обслуживание
Управляемая библиотека сущностей (тариф Pro)€180 в год, все четыре типа включены

Разрыв — примерно 29-кратный в первый год. С каждым последующим годом расходы на пользовательское обслуживание растут. Цена управляемого сервиса остаётся неизменной.

Заключение

Наборы Presidio по умолчанию хорошо подходят для американских сценариев. Для развёртывания в ЕС в рамках GDPR они недостаточны. Пробел требует либо разработки пользовательских распознавателей, либо использования управляемого сервиса.

Для европейских команд, которым необходимо соответствие требованиям и которые ограничены в инженерном времени, готовая библиотека сущностей ЕС устраняет проект разработки объёмом 50+ часов. Файлы можно обрабатывать с первого дня без написания пользовательского кода.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.