By · Last updated 2026-06-05

Kembali ke BlogTeknis

Deteksi PII "Gratis" Menghabiskan €13 Ribu/Tahun

Self-hosting Presidio membutuhkan 40–80 jam pengaturan awal dan 5–10 jam/bulan pemeliharaan berkelanjutan. Dengan tarif rekayasa €100/jam, biayanya mencapai €13.200+.

June 5, 20267 menit baca
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Biaya Nyata Deteksi PII "Gratis"

"Gratis" bukan analisis biaya. Itu adalah harga lisensi — satu faktor di antara banyak faktor.

Microsoft Presidio dapat diunduh seharga €0. Perangkat lunaknya bersumber terbuka. Namun menjalankannya di sebuah perusahaan asuransi menghabiskan lebih dari €13.000 di tahun pertama. Selisih itu adalah waktu rekayasa.

Apa yang Dibutuhkan Deployment Produksi

Menyiapkan alat ini untuk produksi membutuhkan 40–80 jam. Begini rinciannya.

Pengaturan Docker: 4–8 jam. Alat ini menggunakan beberapa kontainer. Layanan analyzer, layanan anonymizer, dan image redactor opsional. Membuat mereka saling berkomunikasi cukup sulit. Isu GitHub menunjukkan ini adalah titik kegagalan yang umum.

Pengaturan Python: 2–4 jam. Pustakanya memiliki aturan versi yang ketat. Konflik sering terjadi — terutama antara versi model spaCy dan Python 3.8/3.9/3.10. GitHub menampilkan ratusan isu terbuka tentang topik ini.

Unduhan model bahasa: 2–4 jam. Model spaCy berkisar dari 300 MB hingga 1,4 GB masing-masing. Pengaturan lima bahasa membutuhkan penyimpanan 1,5–7 GB. Kegagalan pemuatan model termasuk masalah dukungan yang paling umum.

Pengenal kustom: 8–16 jam. Set default mencakup sekitar 40 jenis entitas. Sebagian besar adalah pengidentifikasi AS. Deployment UE membutuhkan ID nasional Eropa. Tim layanan kesehatan membutuhkan format rekam medis. Setiap jenis membutuhkan kode Python, pengaturan YAML, dan pengujian.

Pengaturan API: 4–8 jam. Konfigurasi produksi mencakup timeout, autentikasi, batas rate, dan logging. Dokumentasi resmi tipis. Sebagian besar tim menemukan jawaban di thread isu GitHub.

Log audit: 4–8 jam. GDPR mengharuskan pencatatan pemrosesan data. Alat ini tidak memiliki log audit secara default. Tim harus menulisnya sebagai kode kustom.

Dokumentasi tim: 4–8 jam.

Total pengaturan awal: 28–52 jam pada €100/jam = €2.800–5.200.

Biaya Pemeliharaan Tahunan

Alat ini merilis pembaruan 2–4 kali per tahun. Rilis besar pernah merusak API. Mengikuti perubahan berarti melacak perubahan, menguji di staging, dan melakukan deployment.

Pembaruan model spaCy juga menambah pekerjaan. Versi model baru perlu diunduh ulang dan diperiksa akurasinya sebelum digunakan secara langsung.

Konflik dependensi Python terus berlanjut. Pengaturan yang bersih hari ini mungkin rusak saat patch keamanan dikirim bulan depan.

Pemantauan juga berkelanjutan. Kesehatan kontainer, kebocoran memori, dan langkah-langkah restart semuanya membutuhkan perhatian rutin. Model spaCy membutuhkan banyak memori.

Total pemeliharaan tahunan: 60–120 jam pada €100/jam = €6.000–12.000.

Studi Kasus Nyata

Sebuah tim kepatuhan di perusahaan asuransi bertujuan memproses dokumen klaim. Mereka memiliki dua insinyur data junior dan tidak ada dukungan DevOps.

Minggu 1. Dua kontainer utama tidak bisa saling berkomunikasi. Tiga hari untuk diperbaiki dengan bantuan dari GitHub.

Minggu 2. Model gagal dimuat dalam produksi. Konfigurasi memori berbeda dari pengaturan dev. Dua hari untuk mendiagnosis, satu hari lagi untuk memperbaiki.

Minggu 3. Aturan UK National Insurance Number kustom berhasil dalam pengujian tetapi menghasilkan false positive pada dokumen nyata. Dua hari lagi untuk penyetelan.

Minggu 4. Proyek dieskalasi. Tiga minggu rekayasa terbuang. Masih belum dalam produksi.

Tim kemudian mencoba anonym.legal. Dokumen pertama diproses: 12 menit setelah mendaftar. Deteksi UK National Insurance Number sudah built-in. Tidak perlu pengaturan.

Mereka beralih ke anonym.legal Professional seharga €180/tahun.

TCO tahun pertama:

  • Jalur self-hosted — 40–80 jam lagi untuk menyelesaikan, kemudian €6.000–12.000/tahun untuk pemeliharaan. Total: €10.000–20.000.
  • anonym.legal Professional — €180/tahun. Waktu deployment: ~12 menit.
  • Jam rekayasa yang dihemat: ~132/tahun pada €100/jam = €13.200.

Itu adalah selisih biaya 70x di tahun pertama.

Untuk tim yang juga menghadapi masalah false positive, lihat posting kami tentang masalah presisi Presidio.

Kapan Self-Hosting Masuk Akal

Managed SaaS unggul untuk sebagian besar tim. Namun self-hosting cocok untuk beberapa kasus.

Kedaulatan data. Beberapa aturan atau kontrak melarang pengiriman data ke luar. Desktop App kami (anonym.plus) berjalan sepenuhnya offline. Tidak ada data yang meninggalkan mesin. Akurasi sama, tidak perlu server.

Volume sangat tinggi. Jutaan panggilan API per hari dapat mendorong harga per panggilan melebihi biaya server. Pada skala itu, memiliki stack sendiri masuk akal.

Integrasi produk. Membangun deteksi PII ke dalam produk Anda sendiri dan membutuhkan kontrol penuh? Pekerjaan open-source kustom valid di sini.

DevOps yang sudah ada. Tim dengan tim platform yang sudah menjalankan banyak layanan menghadapi biaya tambahan yang lebih rendah. Infrastruktur adalah biaya tetap bagi mereka.

Untuk semua orang lainnya — tim kepatuhan, startup, tim tanpa DevOps — managed SaaS adalah pilihan yang jelas. Lihat ikhtisar kepatuhan keamanan kami untuk mengetahui bagaimana pemrosesan yang dihosting memenuhi kebutuhan enterprise.

Kesimpulan

Alat open-source memiliki biaya yang tidak terlihat dalam lisensi. Untuk jenis alat ini, biaya besar adalah waktu rekayasa. Pengaturan: 40–80 jam. Pemeliharaan tahunan: 60–120 jam. Dengan tarif normal, jalur self-hosted menghabiskan biaya 20–75x lebih banyak dari layanan terkelola.

Pertanyaan yang tepat bukan "berapa biaya perangkat lunak?" Melainkan "berapa biaya menjalankannya?" Untuk sebagian besar tim, jawabannya mengarah ke managed SaaS.

Sumber

Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.

Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.

GDPR Article 32: Technical measures for appropriate security. VERIFIED-EXTERNAL.

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.