anonym.legal

By · Last updated 2026-06-05

Назад към блогаТехнически

Безплатното разпознаване на PII данни струва 13 000 EUR годишно

Собственото хостване на Presidio изисква 40-80 часа начална настройка и 5-10 часа месечна поддръжка. При ставка от 100 EUR на час за инженери, това е 13 200+ EUR.

June 5, 20267 мин. четене
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Реалната цена на "безплатното" разпознаване на PII данни

"Безплатно" не е анализ на разходите. Това е цена на лиценза -- един фактор от многото.

Microsoft Presidio струва 0 EUR за изтегляне. Софтуерът е с отворен код. Но работата му в застрахователна компания струва над 13 000 EUR за първата година. Тази разлика е инженерно работно време.

Какво изисква производствено разгръщане

Подготовката на инструмента за производство отнема 40-80 часа. Ето как се разпределя това време.

Настройка на Docker: 4-8 часа. Инструментът използва няколко контейнера. Услуга за анализ, услуга за анонимизиране и незадължителен редактор на изображения. Свързването им е трудно. Проблемите в GitHub показват, че това е честа точка на провал.

Настройка на Python: 2-4 часа. Библиотеките имат строги правила за версии. Конфликтите са чести -- особено между версиите на spaCy модели и Python 3.8/3.9/3.10. GitHub показва стотици отворени проблеми по тази тема.

Изтегляне на езикови модели: 2-4 часа. spaCy моделите варират от 300 MB до 1,4 GB всеки. Настройка на пет езика изисква 1,5-7 GB пространство за съхранение. Неуспешното зареждане на модели е сред най-честите проблеми за поддръжка.

Персонализирани разпознаватели: 8-16 часа. Стандартният набор покрива около 40 типа обекти. Повечето са американски идентификатори. Европейските разгръщания се нуждаят от национални идентификатори на ЕС. Медицинските екипи се нуждаят от формати на медицински записи. Всеки тип изисква Python код, YAML настройка и тестване.

Настройка на API: 4-8 часа. Производствената конфигурация включва таймаути, удостоверяване, ограничения на скоростта и логване. Официалната документация е оскъдна. Повечето екипи намират отговори в GitHub issue threads.

Одиторско логване: 4-8 часа. GDPR изисква записи за обработката на данни. Инструментът няма одиторски лог по подразбиране. Екипите трябва да го напишат като персонализиран код.

Документация на екипа: 4-8 часа.

Обща начална настройка: 28-52 часа при 100 EUR/час = 2 800-5 200 EUR.

Годишни разходи за поддръжка

Инструментът публикува актуализации 2-4 пъти годишно. Основните версии са нарушили API-тата. Поддържането в крак означава проследяване на промените, тестване в staging и разгръщане.

Актуализациите на spaCy модели добавят допълнителна работа. Новите версии на модели трябва да се изтеглят отново и да се проверят за точност преди въвеждането в производство.

Конфликтите на зависимости в Python продължават. Чистата настройка днес може да се счупи, когато утре се пусне пач за сигурност.

Мониторингът е непрекъснат. Здравето на контейнерите, изтичанията на памет и стъпките за рестартиране изискват редовно внимание. Моделите spaCy са с интензивно използване на паметта.

Обща годишна поддръжка: 60-120 часа при 100 EUR/час = 6 000-12 000 EUR.

Реален казус

Екип по съответствие в застрахователна фирма пристъпи към обработка на документи за претенции. Разполагаха с двама младши инженери по данни и без DevOps поддръжка.

Седмица 1. Двата основни контейнера не можеха да комуникират. Три дни за отстраняване с помощта от GitHub.

Седмица 2. Моделите не успяха да се заредят в производство. Конфигурацията на паметта беше различна от настройката в разработката. Два дни за диагностика, още един за поправка.

Седмица 3. Персонализирано правило за UK National Insurance Number работеше при тестове, но имаше фалшиви положителни резултати при реални документи. Още два дни за настройка.

Седмица 4. Проектът беше ескалиран. Изразходвани три инженерни седмици. Все още не в производство.

Екипът след това опита anonym.legal. Първият обработен документ: 12 минути след регистрация. Разпознаването на UK National Insurance Number вече беше вградено. Не беше необходима настройка.

Те преминаха към anonym.legal Professional за 180 EUR/година.

TCO за първата година:

  • Собствено хостване -- 40-80 допълнителни часа за завършване, след което 6 000-12 000 EUR/год за поддръжка. Общо: 10 000-20 000 EUR.
  • anonym.legal Professional -- 180 EUR/година. Време за разгръщане: ~12 минути.
  • Спестени инженерни часове: ~132/год при 100 EUR/час = 13 200 EUR.

Това е разлика от 70x в разходите за първата година.

За екипи, изправени и пред проблеми с фалшивите положителни резултати, вижте нашата публикация за проблема с точността на Presidio.

Кога собственото хостване има смисъл

Управляваните SaaS решения печелят за повечето екипи. Но собственото хостване е подходящо в някои случаи.

Суверенитет на данните. Някои правила или договори забраняват изпращането на данни навън. Нашето Desktop App (anonym.plus) работи изцяло офлайн. Никакви данни не напускат устройството. Същата точност, без нужда от сървър.

Много голям обем. Милиони API извиквания на ден могат да повишат разходите за извикване над разходите за сървър. При такъв мащаб притежаването на стека има смисъл.

Интеграция в продукт. Изграждате разпознаване на PII данни в собствения си продукт и имате нужда от пълен контрол? Персонализираната работа с отворен код е валидна тук.

Съществуваща DevOps инфраструктура. Екипи с платформен екип, вече управляващ множество услуги, имат по-ниски допълнителни разходи. Инфраструктурата е потопен разход за тях.

За всички останали -- екипи по съответствие, стартъпи, екипи без DevOps -- управляваното SaaS е ясният избор. Вижте нашия преглед на сигурността и съответствието за това как хостваната обработка отговаря на корпоративните нужди.

Заключение

Инструментите с отворен код имат разходи, които не се отразяват в лиценза. За този тип инструмент, основният разход е инженерното работно време. Настройка: 40-80 часа. Годишна поддръжка: 60-120 часа. При нормални ставки, собственото хостване струва 20-75 пъти повече от управляваната услуга.

Правилният въпрос не е "колко струва софтуерът?" А "колко струва работата с него?" За повечето екипи отговорът сочи към управлявани SaaS решения.

Източници

Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.

Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.

GDPR Article 32: Technical measures for appropriate security. VERIFIED-EXTERNAL.

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.