Presidio пропуска 220+ обекти по GDPR: Пропастта в покритието за ЕС
Актуализирано за 2026 г.
Microsoft Presidio се доставя с около 40 стандартни разпознаватели на обекти. За американски разгръщания това работи. Покрива SSN номера, американски паспорти, шофьорски книжки, кредитни карти и имейли.
За европейски разгръщания пропастта е голяма. GDPR обхваща всички лични данни в ЕС. Това се прилага независимо от националността на субекта на данните. Европейските екипи се нуждаят от разпознаватели, с които Presidio не се доставя.
Какво включва Presidio
Стандартните настройки на Presidio се разделят на четири групи.
Американски идентификатори:
- US Social Security Number (SSN)
- US Passport Number
- US Driver's License Number
- US Bank Account Number
- US ITIN
- US Medical License Number
Универсални идентификатори:
- Email Address
- Phone Number
- IP Address
- Credit Card Number
- Crypto Wallet Address
- URL
Текстови обекти (базирани на NER):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
Ограничено международно покритие:
- UK NHS Number
- UK National Insurance Number (NINO)
- Някои финансови идентификатори
Общо: около 40 разпознаватели.
От какво се нуждаят европейските екипи
Финансови идентификатори
IBAN се среща в повечето европейски бизнес файлове. Появява се в плащания, фактури и ведомости. IBAN следва ISO 13616. Presidio няма разпознавател за IBAN.
Вземете един германски финтех. Всеки платежен файл съдържа IBAN. Без разпознаване на IBAN инструментът търси само номера на кредитни карти. Основният европейски платежен идентификатор се пропуска. Това означава, че ключов фрагмент от данните, защитени по GDPR, никога не се открива.
Национални данъчни идентификатори
Нито един от следните не е в стандартните настройки на Presidio:
- Германски Steueridentifikationsnummer: 11 цифри
- Френски NIR: 15 цифри с контролен ключ
- Италиански Codice Fiscale: 16 знака с контролна сума
- Испански NIF/NIE: 9 знака с буква
- Нидерландски BSN: 9 цифри с elfproef валидация
Европейски екип за ведомости обработва файлове от много държави членки. Без тях той пропуска най-чувствителните идентификатори в тези записи.
Национални здравни идентификатори
UK NHS Number е покрит. Следните не са:
- Френски NIR (също здравен идентификатор)
- Германски Krankenkassennummer
- Италиански Codice Fiscale (също здравен идентификатор)
- Нидерландски BSN (използван за здравно осигуряване)
Европейските здравни екипи се нуждаят от тях за защита на данни на ниво GDPR.
Европейски шофьорски книжки
Европейските шофьорски книжки попадат под Директива 2006/126/EC. Всяка държава членка има свой формат. Буквено-цифровата структура се различава по държави. Presidio разполага само с разпознаватели за американски шофьорски книжки. Няма поддръжка за европейски шофьорски книжки. Това означава, че данните за европейски шофьорски книжки преминават необнаружени.
Номера по ДДС
Номерата по ДДС на ЕС се срещат при всяка B2B сделка. Формат: 2-буквен код на държавата плюс 8-12 цифри. Presidio няма разпознавател за ДДС номера. Те са свързани с компании и техните собственици. Те представляват лични данни по GDPR.
За повече информация относно задълженията по GDPR, вижте ресурси за съответствие с GDPR.
Разходите за персонализирани разпознаватели
Когато европейските екипи открият тази пропаст, изграждат персонализирани разпознаватели. Това отнема реално време.
Приблизително необходимо работно време за разпознавател:
- Проучване на формата: 1-2 часа
- Написване на Python клас: 2-4 часа
- Изграждане на regex и валидация: 2-4 часа
- Добавяне на контекстни думи: 1-2 часа
- Написване на тестове: 2-3 часа
- Разгръщане и проверка: 1-2 часа
Това е 9-17 часа за разпознавател. Те са само приблизителни оценки.
Пример: германски финтех се нуждае от четири разпознаватели.
IBAN, Steuer-ID, европейска шофьорска книжка, германски ДДС.
- 4 разпознаватели по 13 часа = 52 часа работа
- При 100 EUR на час: около 5 200 EUR
Това покрива само първоначалното изграждане. Форматите се променят с времето. Появяват се нови гранични случаи. Актуализациите на Presidio API могат да счупят нещата. Всяка промяна изисква разработчик да прегледа и поправи. Текущата работа добавя разходи година след година.
Управляваната библиотека
anonym.legal разширява Presidio с 285+ типа обекти. Екипът поддържа библиотеката актуална. Европейските идентификатори са включени от самото начало.
Какво надхвърля стандартните настройки на Presidio:
- IBAN в форматите на всички държави членки на ЕС
- Данъчни идентификатори на държави членки: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL и много повече
- Национални здравни идентификатори на ЕС
- ДДС номера (формат на ЕС)
- Формати на европейски шофьорски книжки
- Европейски паспортни формати
- Варианти на обекти на 48 поддържани езика
Когато Германия актуализира формат на данъчен идентификатор, актуализацията се публикува с услугата. Не е нужна заявка за изтегляне от вашия екип.
За идентификатори, неналични в библиотеката, инструментът за персонализирани обекти ви позволява да добавяте шаблони. Не е нужен Python код.
Вижте подробности за сигурността и съответствието за начина, по който функционират актуализациите и одиторските пътеки.
Примерът с германския финтех
Германски финтех трябва да разпознае IBAN, BIC, Steuer-ID и Handelsregisternummern в клиентски файлове.
Степен на разпознаване на Presidio по подразбиране за тези четири типа: 0%.
Нито един не е в стандартната библиотека. Това не е лоша точност. Това са нулеви засичания. Инструментът не ги пропуска частично. Той изобщо не ги вижда.
Сравнение на разходите:
| Подход | Разходи за първата година |
|---|---|
| Персонализирани разпознаватели (4 x 13 часа при 100 EUR/час) | ~5 200 EUR плюс текуща поддръжка |
| Управлявана библиотека с обекти (план Pro) | 180 EUR/год, всичките четири включени |
Разликата е около 29 пъти за първата година. Всяка следваща година персонализираната поддръжка добавя повече разходи. Цената на управляваната услуга остава постоянна.
Заключение
Стандартните настройки на Presidio обслужват добре американските случаи на употреба. За европейски разгръщания по GDPR те са недостатъчни. Пропастта изисква или работа по персонализирани разпознаватели, или управлявана услуга.
За европейски екипи, при които съответствието е задължително и инженерното работно време е ограничено, предварително изградена библиотека с европейски обекти премахва проект за изграждане от 50+ часа. Файловете могат да се обработват от първия ден. Не е нужен предварителен персонализиран код.