anonym.legal
Назад към блогаGDPR и съответствие

Какво пропуска Presidio: 220+ типа обекти...

Presidio се доставя с ~40 средства за разпознаване на обекти по подразбиране, фокусирани върху американски идентификатори.

April 21, 20267 мин. четене
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Какво Presidio пропуска: 220+ типа обекти, които са от съществено значение за GDPR-съвместимо откриване на PII

Microsoft Presidio се доставя с приблизително 40 средства за разпознаване на обекти по подразбиране. За базирани в САЩ внедрявания, обработващи ориентирани към САЩ документи, това обхваща основните категории: SSN, американски паспорти, американски шофьорски книжки, кредитни карти, имейл адреси, телефонни номера и имена на лица.

За внедрявания в ЕС разликата в покритието е значителна. GDPR се прилага за всички лични данни в ЕС, независимо от националността. Организациите в ЕС, обработващи данни на собствените си граждани, се нуждаят от разпознаватели, които Presidio не предоставя веднага.

Библиотеката на обектите Presidio по подразбиране

Разпознавателите по подразбиране на Presidio включват:

Идентификатори, ориентирани към САЩ:

  • Номер на социална осигуровка в САЩ (SSN)
  • Номер на американския паспорт
  • Номер на шофьорска книжка в САЩ (множество държавни формати)
  • Номер на банкова сметка в САЩ
  • US ITIN (Индивидуален идентификационен номер на данъкоплатеца)
  • Номер на медицински лиценз в САЩ

Универсални идентификатори:

  • Имейл адрес
  • Телефонен номер (приоритет на формат, ориентиран към САЩ)
  • IP адрес
  • Номер на кредитна карта (алгоритъм на Luhn)
  • Адрес на крипто портфейла
  • URL

Общи текстови обекти:

  • PERSON (базиран на NER)
  • LOCATION (базиран на NER)
  • ORGANIZATION (базиран на NER)
  • DATE_TIME (базиран на NER)

Ограничено международно покритие:

  • Номер на NHS в Обединеното кралство
  • Национален осигурителен номер на Обединеното кралство (NINO)
  • Идентификатори на финансови единици (някои)

Общо: ~40 разпознаващи

От какво всъщност се нуждаят организациите на ЕС

Финансови идентификатори: IBAN (Международен номер на банкова сметка) се появява в почти всеки бизнес документ на ЕС, включващ плащания, банкови преводи, фактуриране и заплати. IBAN форматите се различават според държавата, но следват международен стандарт (ISO 13616). Presidio няма разпознавател по подразбиране IBAN.

Немска финтех обработка на записите за плащане на клиенти обработва IBAN номера във всеки документ за транзакция. Без разпознаване на IBAN тези документи се обработват с активно откриване на кредитни карти (откриване на номера на карти), но полетата IBAN (основният идентификатор на плащане в ЕС) се игнорират напълно.

Национални данъчни идентификатори:

  • Немски Steueridentifikationsnummer: 11-цифрено число
  • Френски NIR (Numéro d'Inscription au Répertoire): 13 буквено-цифрови знака
  • Италиански Codice Fiscale: 16-знаков буквено-цифров код със структурно валидиране
  • Испански NIF/NIE: 9 знака с буквен суфикс/префикс
  • Холандски BSN: 9-цифрен с валидиране с 11 доказателства

Нито едно от тях не е в библиотеката на обекти по подразбиране на Presidio. Процесор на заплати в ЕС, обработващ документи на служители от множество държави-членки, е ефективно сляп за техните най-чувствителни финансови идентификатори.

Национални здравни идентификатори:

  • Номер на NHS в Обединеното кралство: 10-цифрен с проверка на модул-11
  • Френски Numéro de Sécurité Sociale (NIR): Служи и като здравен ID
  • Немски Krankenkassennummer: буквено-цифров, специфичен за застрахователя
  • Италиански Codice Fiscale: Използва се също като здравен идентификатор
  • Холандия BSN: Използва се и за здравно осигуряване

Здравните организации в целия ЕС се нуждаят от тези идентификатори за защита на здравни данни, еквивалентна на HIPAA. Presidio предоставя номера на NHS в Обединеното кралство, но пропуска здравните идентификатори за континентална Европа.

Формати на шофьорска книжка в ЕС: Presidio има устройства за разпознаване на шофьорска книжка в САЩ (специфични за държавата). Форматите на свидетелствата за управление на МПС на ЕС са стандартизирани съгласно Директива 2006/126/ЕО, но се различават в зависимост от държавата-членка по своята буквено-цифрова структура. Няма средства за разпознаване на шофьорска книжка в ЕС в настройките по подразбиране на Presidio.

Регистрационни номера по ДДС: ДДС номерата в ЕС се появяват във всяка транзакция между фирми. Формат: код на държавата (2 букви) + 8-12 буквено-цифрови цифри. Presidio няма устройство за разпознаване на ДДС номер. За предприятия от ЕС, които споделят фактури, договори и търговски документи, ДДС номерата са идентификатори, които се свързват с регистрирани бизнес субекти и техните директори.

Формати на ЕС паспорти: Разпознаването на паспорти на САЩ в Presidio, но паспортните формати на ЕС (особено форматът за машинно четима зона) не са обхванати.

Инженерните разходи за разработване на потребителски разпознавател

Когато организациите от ЕС внедрят Presidio и открият пропуска в покритието на обекта, отговорът обикновено е разработка на персонализирано разпознаващо устройство. Цената:

За време за разработка на разпознавателя:

  • Проучване на формата на идентификатора: 1-2 часа
  • Напишете PatternRecognizer Python клас: 2-4 часа
  • Прилагане на регулярен израз с логика за валидиране: 2-4 часа
  • Конфигуриране на контекстни думи за подобряване на точността: 1-2 часа
  • Писане на тестове: 2-3 часа
  • Интегриране и тестване при внедряване: 1-2 часа

На разпознавач: 9-17 часа.

За немски финтех, нуждаещ се от IBAN + Steuer-ID + шофьорска книжка в ЕС + ДДС в Германия + IBAN:

  • 4 потребителски разпознаващи устройства × 13 часа средно = 52 инженерни часа
  • При 100 евро/час: 5 200 евро в разработката на разпознавателя по поръчка

Плюс текуща поддръжка, тъй като форматите се променят, появяват се нови тестови случаи и актуализациите на Presidio API изискват модификации на разпознавателя.

Общи разходи за покритие на ЕС GDPR в допълнение към Presidio: €5200+ първоначална + текуща поддръжка

Алтернативата: библиотеки с управлявани обекти

anonym.legal разширява основата Presidio с 285+ типа обекти, поддържани от екипа за разработка — включително специфичните за ЕС идентификатори, които липсват в настройките по подразбиране на Presidio:

Акценти на покритието извън Presidio по подразбиране:

  • IBAN (всички формати на държави-членки на ЕС)
  • Данъчни идентификатори на държави-членки на ЕС (включително Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL и други)
  • Национални здравни идентификатори на ЕС
  • ДДС номера (ЕС формат)
  • Формати на шофьорска книжка на ЕС
  • европейски паспортни формати
  • Всички 48 поддържани варианта на езикови обекти

Поддръжка: Актуализациите на библиотеката на обекти се изпращат като част от управляваната услуга. Когато Германия въведе нов формат на данъчен идентификатор, потребителите получават разпознавателя, без да подават заявка за изтегляне.

Персонализирано разширение: За специфични за организацията идентификатори, които не са в библиотеката, създателят на персонализирани обекти позволява добавяне на модели без код на Python.

Примерът за немски финтех

Немски финтех трябва да открие IBAN, BIC, германски данъчни номера (Steuer-ID) и германски търговски регистрационни номера (Handelsregisternummer) в клиентските документи.

Presidio степен на откриване по подразбиране за тези 4 типа обекти: 0%

Не ниска точност, не фалшиви положителни резултати — нулеви откривания. Нито един от 4-те типа обекти не се появява в библиотеката на обекти по подразбиране на Presidio.

Писане на персонализирани разпознаватели: 4 разпознаватели × 13 часа = 52 часа = 5200 евро по инженерни цени.

Използване на библиотека с управлявани обекти с всички 4 покрити: €180/година (професионален план).

Разходи за постигане на съвместимо със GDPR откриване на тези германски финансови идентификатори:

  • Маршрут Presidio: 5200 € инженеринг + Presidio оперативни разходи
  • Управляван сервизен маршрут: €180/година, откриване на всичките 4 от кутията

Разликата е 28x през първата година. За всяка година на работа времето за инженеринг за персонализирана поддръжка на разпознавателя добавя към разходите за Presidio, докато разходите за управлявана услуга остават непроменени.

Заключение

~40 разпознаватели по подразбиране на Presidio обслужват добре ориентираните към САЩ случаи на използване. За внедрявания в ЕС, изискващи съответствие със GDPR в специфични за държавата членка идентификатори, готовото покритие е недостатъчно. Празнината се запълва или чрез разработка на персонализирано разпознаващо устройство (скъпо, отнемащо време) или чрез управлявана услуга, която поддържа покритие на субект в ЕС като част от абонамента.

За организации в ЕС, където съответствието не подлежи на обсъждане и инженерните ресурси са ограничени, предварително изградената библиотека на обекти в ЕС на управляваната услуга елиминира 50+ часа персонализиран проект за разработка преди анонимизирането на първия документ.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.