By · Last updated 2026-06-05

Quay lại BlogKỹ Thuật

Phát Hiện PII "Miễn Phí" Tốn €13K/Năm

Tự host Presidio cần 40–80 giờ thiết lập ban đầu và 5–10 giờ bảo trì hàng tháng. Với chi phí kỹ sư €100/giờ, tổng chi phí là hơn €13.200/năm.

June 5, 20267 phút đọc
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Chi Phí Thực Sự Của Phát Hiện PII "Miễn Phí"

"Miễn phí" không phải là phân tích chi phí. Đó là giá bản quyền — một yếu tố trong số nhiều yếu tố.

Microsoft Presidio tải về miễn phí €0. Phần mềm là mã nguồn mở. Nhưng chạy nó tại một công ty bảo hiểm tốn hơn €13.000 trong năm đầu tiên. Khoảng cách đó là thời gian kỹ thuật.

Những Gì Cần Cho Môi Trường Production

Đưa công cụ sẵn sàng cho production mất 40–80 giờ. Đây là nơi thời gian đó đi đến.

Thiết lập Docker: 4–8 giờ. Công cụ sử dụng nhiều container. Một dịch vụ phân tích, một dịch vụ ẩn danh, và một bộ biên tập hình ảnh tùy chọn. Khiến chúng giao tiếp với nhau rất khó. Các vấn đề trên GitHub cho thấy đây là điểm thất bại phổ biến.

Thiết lập Python: 2–4 giờ. Các thư viện có quy tắc phiên bản nghiêm ngặt. Xung đột rất phổ biến — đặc biệt giữa các phiên bản mô hình spaCy và Python 3.8/3.9/3.10. GitHub có hàng trăm vấn đề mở về chủ đề này.

Tải mô hình ngôn ngữ: 2–4 giờ. Các mô hình spaCy có kích thước từ 300 MB đến 1,4 GB mỗi cái. Thiết lập năm ngôn ngữ cần 1,5–7 GB bộ lưu trữ. Lỗi tải mô hình là một trong những vấn đề hỗ trợ phổ biến nhất.

Bộ nhận diện tùy chỉnh: 8–16 giờ. Bộ mặc định bao gồm khoảng 40 loại thực thể. Hầu hết là định danh Mỹ. Triển khai EU cần ID quốc gia châu Âu. Nhóm y tế cần định dạng hồ sơ bệnh nhân. Mỗi loại cần code Python, thiết lập YAML, và kiểm thử.

Thiết lập API: 4–8 giờ. Cấu hình production bao gồm timeout, xác thực, giới hạn tốc độ, và ghi log. Tài liệu chính thức còn mỏng. Hầu hết các nhóm tìm câu trả lời trong các luồng vấn đề GitHub.

Ghi log kiểm toán: 4–8 giờ. GDPR yêu cầu hồ sơ xử lý dữ liệu. Công cụ không có log kiểm toán mặc định. Các nhóm phải viết nó như code tùy chỉnh.

Tài liệu nhóm: 4–8 giờ.

Tổng thiết lập ban đầu: 28–52 giờ với €100/giờ = €2.800–5.200.

Chi Phí Bảo Trì Hàng Năm

Công cụ phát hành cập nhật 2–4 lần mỗi năm. Các phiên bản chính đã làm hỏng API. Theo kịp nghĩa là theo dõi các thay đổi, kiểm tra trong staging, và triển khai.

Cập nhật mô hình spaCy cũng thêm công việc. Các phiên bản mô hình mới cần tải lại và kiểm tra độ chính xác trước khi đưa vào production.

Xung đột phụ thuộc Python tiếp tục xảy ra. Một thiết lập sạch hôm nay có thể bị hỏng khi một bản vá bảo mật phát hành vào tháng tới.

Giám sát cũng liên tục. Sức khỏe container, rò rỉ bộ nhớ, và các bước khởi động lại đều cần chú ý thường xuyên. Các mô hình spaCy nặng về bộ nhớ.

Tổng bảo trì hàng năm: 60–120 giờ với €100/giờ = €6.000–12.000.

Nghiên Cứu Trường Hợp Thực Tế

Một nhóm tuân thủ tại công ty bảo hiểm dự định xử lý tài liệu yêu cầu bồi thường. Họ có hai kỹ sư dữ liệu junior và không có hỗ trợ DevOps.

Tuần 1. Hai container chính không thể giao tiếp với nhau. Ba ngày để sửa với sự giúp đỡ từ GitHub.

Tuần 2. Mô hình không tải được trong production. Cấu hình bộ nhớ khác với thiết lập dev. Hai ngày để chẩn đoán, thêm một ngày để sửa.

Tuần 3. Một quy tắc Số Bảo Hiểm Quốc Gia Anh tùy chỉnh hoạt động trong kiểm tra nhưng gặp dương tính giả trên tài liệu thực. Thêm hai ngày điều chỉnh.

Tuần 4. Dự án được leo thang. Ba tuần kỹ thuật đã chi. Vẫn chưa trong production.

Nhóm sau đó thử anonym.legal. Tài liệu đầu tiên được xử lý: 12 phút sau khi đăng ký. Phát hiện Số Bảo Hiểm Quốc Gia Anh đã được tích hợp sẵn. Không cần thiết lập.

Họ chuyển sang anonym.legal Professional với €180/năm.

TCO năm đầu:

  • Con đường tự host — 40–80 giờ nữa để hoàn thành, sau đó €6.000–12.000/năm để bảo trì. Tổng: €10.000–20.000.
  • anonym.legal Professional — €180/năm. Thời gian triển khai: ~12 phút.
  • Giờ kỹ thuật tiết kiệm: ~132/năm với €100/giờ = €13.200.

Đó là khoảng cách chi phí 70x trong năm đầu.

Đối với các nhóm cũng gặp vấn đề dương tính giả, xem bài viết của chúng tôi về vấn đề độ chính xác của Presidio.

Khi Tự Host Có Ý Nghĩa

SaaS được quản lý thắng cho hầu hết các nhóm. Nhưng tự host phù hợp với một số trường hợp.

Chủ quyền dữ liệu. Một số quy tắc hoặc hợp đồng cấm gửi dữ liệu ra ngoài. Desktop App (anonym.plus) của chúng tôi chạy hoàn toàn offline. Không có dữ liệu nào rời khỏi máy. Cùng độ chính xác, không cần server.

Khối lượng rất cao. Hàng triệu lệnh gọi API mỗi ngày có thể đẩy giá theo lần gọi vượt quá chi phí server. Ở quy mô đó, việc sở hữu stack có ý nghĩa.

Tích hợp sản phẩm. Tích hợp phát hiện PII vào sản phẩm của riêng bạn và cần kiểm soát hoàn toàn? Công việc mã nguồn mở tùy chỉnh hợp lệ ở đây.

DevOps sẵn có. Các nhóm có nhóm nền tảng đã chạy nhiều dịch vụ phải đối mặt với chi phí bổ sung thấp hơn. Cơ sở hạ tầng là chi phí chìm đối với họ.

Đối với mọi người khác — nhóm tuân thủ, startup, nhóm không có DevOps — SaaS được quản lý là lựa chọn rõ ràng. Xem tổng quan tuân thủ bảo mật của chúng tôi để biết cách xử lý hosted đáp ứng nhu cầu doanh nghiệp.

Kết Luận

Các công cụ mã nguồn mở có chi phí không hiện ra trong giá bản quyền. Đối với loại công cụ này, chi phí lớn là thời gian kỹ thuật. Thiết lập: 40–80 giờ. Bảo trì hàng năm: 60–120 giờ. Với mức giá thông thường, con đường tự host tốn 20–75x so với dịch vụ được quản lý.

Câu hỏi đúng không phải là "phần mềm tốn bao nhiêu?" Mà là "chạy nó tốn bao nhiêu?" Đối với hầu hết các nhóm, câu trả lời đó chỉ về phía SaaS được quản lý.

Nguồn

Microsoft Presidio GitHub: Vấn đề và tài liệu thiết lập. VERIFIED-EXTERNAL.

Ploomber: Hướng dẫn triển khai Presidio production. VERIFIED-EXTERNAL.

GDPR Điều 32: Các biện pháp kỹ thuật bảo mật phù hợp. VERIFIED-EXTERNAL.

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.