anonym.legal
Назад към блогаТехнически

Реалната цена на „безплатното“ откриване на PII с...

Самостоятелният хостинг Presidio изисква 40-80 часа първоначална настройка и 5-10 часа/месец текуща поддръжка.

April 21, 20267 мин. четене
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Реалната цена на „безплатното“ откриване на PII с отворен код: Защо Presidio струва над €13 000/година

„Безплатно е“ не е анализ на общата цена на собственост. Това е цената на лиценза — един компонент от многото.

Microsoft Presidio е безплатен за изтегляне, с отворен код и подкрепен от Microsoft. Стойността на софтуера: €0. Разходите за инфраструктура, инженеринг и поддръжка за готово за производство внедряване: €13 200+/година за екипи със старши инженерни ресурси. Повече за отбори без тях.

Какво всъщност изисква производствено внедряване на Presidio

Първоначална настройка (40-80 инженерни часа):

Конфигуриране на Docker среда и работа в мрежа: 4-8 часа. Архитектурата Presidio изисква координиране на множество контейнери (услуга за анализатор, услуга за анонимизиране, опционален редактор на изображения). Мрежовата конфигурация между контейнерите е нетривиална и често документирана като точка на повреда в GitHub проблеми.

Управление на Python среда: 2-4 часа. spaCy, президио-анализатор, президио-анонимизатор и техните транзитивни зависимости имат сложни изисквания за съвместимост на версиите. GitHub показва стотици открити проблеми, свързани с конфликти на зависимости, особено между версиите на модела spaCy и съвместимостта на Python 3.8/3.9/3.10.

Изтегляне и управление на езикови модели: 2-4 часа. spaCy езиковите модели варират от 300MB до 1,4GB всеки. Внедряване, поддържащо 5 езика, изисква 1,5-7 GB място за съхранение на модела, подходяща конфигурация за зареждане и разпределение на паметта. Неуспешното зареждане на модела е един от най-често срещаните проблеми с поддръжката на Presidio.

Разработка на персонализиран разпознавач: 8-16 часа. Наборът за разпознаване по подразбиране Presidio обхваща ~40 типа обекти, фокусирани върху идентификатори в САЩ. Внедряванията в ЕС се нуждаят от европейски национални идентификатори. Разгръщанията в здравеопазването се нуждаят от формати на номера на медицински досиета. Всеки персонализиран разпознавач изисква реализация на Python PatternRecognizer, YAML регистрация и тестване.

API конфигурация и тестване: 4-8 часа. Конфигурацията на производствения API включва настройки за изчакване, удостоверяване, ограничаване на скоростта и регистриране. Документацията за тези конфигурации е оскъдна; повечето екипи ги извличат от дискусии по проблеми GitHub.

Регистриране на одит за съответствие: 4-8 часа. GDPR изисква доказуеми записи за обработка. Presidio не включва регистриране на одит по подразбиране — това трябва да се добави като персонализиран междинен слой.

Документация на екипа и адаптиране: 4-8 часа.

Обща първоначална настройка: 28-52 часа при €100/час = €2800-5200

Годишна поддръжка (60-120 часа/година):

Presidio пуска актуализации 2-4 пъти годишно. Основните актуализации на версията (Presidio 2.x) включват неработещи промени в API, изискващи значително повторно тестване. Поддържането на производствено внедряване изисква проследяване на изданията, оценка на промените, тестване в стадия и внедряване на актуализации.

Актуализации на модел spaCy: Периодично се пускат подобрения на езиковия модел. Актуализирането изисква повторно изтегляне на модели, тестване на промените в точността на откриване и повторно разполагане.

Разрешаване на конфликти на зависимости: Конфликтите на зависимости на екосистемата на Python са постоянна тежест за поддръжка. Изискванията, които работят днес, може да са в конфликт с корекциите за сигурност, пуснати следващия месец.

Оперативен мониторинг: Мониторинг на състоянието на контейнера, проверки на наличието на API, откриване на изтичане на памет (моделите spaCy изискват интензивна памет) и процедури за рестартиране.

Обща годишна поддръжка: 60-120 часа при €100/час = €6,000-12,000

Казусът на застрахователната компания

Екип за съответствие в застрахователна компания инициира внедряване на Presidio за обработка на документи за искове. Екипът имаше двама младши инженери по данни и нямаше специализиран DevOps.

Седмица 1: Проблем с мрежата на Docker с многоконтейнерната архитектура. Presidio анализатор и услуги за анонимизиране не могат да комуникират. Разрешено след 3 дни с помощта на GitHub проблеми.

Седмица 2: Грешки при зареждане на spaCy модел в производствена среда (различна конфигурация на паметта от разработката). 2 дни за диагностициране, 1 ден за разрешаване.

Седмица 3: Персонализиран инструмент за разпознаване за формат на национален осигурителен номер в Обединеното кралство (NINO). Моделът работи при тестване, но генерира фалшиви положителни резултати в производствените документи. 2 допълнителни дни настройка.

Седмица 4: Проектът ескалиран. Приблизителното 4-седмично внедряване е отнело 3 инженерни седмици и не е било готово за производство.

Алтернативна оценка: Създаден anonym.legal акаунт. Първи анонимизиран документ: 12 минути след регистрацията. UK NINO откриване: включено в библиотеката на обекти по подразбиране. Не е необходима конфигурация.

Решение: anonym.legal Професионален план, приет на €180/година.

Сравнение на TCO за тази организация:

  • Очаквано внедряване на Presidio в производството: допълнителни 2-4 седмици = 40-80 инженерни часа = 4000-8000 евро

  • Годишна поддръжка на Presidio (без специални DevOps): изнесени = €6,000-12,000/година

  • Общо за година 1: 10 000-20 000 евро

  • anonym.legal Professional: €180/година

  • Инженерно време за разгръщане: 12 минути (незначително)

  • Обща година-1: €180

Спестено време за инженеринг спрямо управление на самостоятелно хостван Presidio: 60 часа първоначална настройка + 72 часа/годишно поддръжка = приблизително 132 часа годишно при €100/час = €13 200 спестени срещу €180 разходи.

Когато самостоятелното хостване на Presidio има смисъл

Анализът на TCO предпочита управлявания SaaS за повечето организации. Самостоятелното хостване е подходящо, когато:

Изисквания за суверенитет на данните: Регулаторни или договорни изисквания, забраняващи предаването на данни към външни сървъри. Забележка: Приложението за настолни компютри на anonym.legal (anonym.plus) осигурява офлайн обработка, поддържайки точност на ниво Presidio, без данни да напускат локалната среда — адресиране на това изискване при по-ниски TCO в сравнение със самостоятелно хостваното Presidio.

Изключителен обем на обработка: Милиони API повиквания на ден, при които цената на заявка надвишава разходите за инфраструктура. В този мащаб инвестициите в инфраструктура са оправдани от икономиката на обема.

Дълбоко персонализиране: Организациите вграждат откриване на PII в продукт с изисквания, които не отговарят на библиотеката с обекти на управляваната услуга или дизайна на API. Разработката на персонализиран разпознавач на Presidio е подходяща тук.

**Съществуваща DevOps инфраструктура: ** Организации със специално проектиране на платформа, които третират Presidio като една от многото управлявани услуги. Пределните разходи са по-ниски, когато управлението на инфраструктурата вече е невъзстановим разход.

За останалите 95% от организациите – екипи без специализирани DevOps, отдели за съответствие, нуждаещи се от инструменти, които техният нетехнически персонал може да използва, стартиращи компании, които се нуждаят от съответствие, преди да имат инфраструктурни инженери – управляваната услуга TCO е изключително благоприятна.

Заключение

„Безплатните“ инструменти с отворен код имат реални разходи, които не се появяват в цената на лиценза. За Presidio тези разходи са доминирани от времето за инженеринг — първоначална настройка (40-80 часа) и текуща поддръжка (60-120 часа/година). При типичните инженерни тарифи, това прави Presidio 20-75 пъти по-скъп от управлявана алтернатива на SaaS на база обща цена на притежание.

Подходящият въпрос не е "колко струва софтуерът?" но "колко струва стартирането на софтуера в производство?" За повечето организации отговорът решително е в полза на управлявания SaaS.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.