Kos Sebenar Pengesanan PII "Percuma"
"Ia percuma" bukan analisis kos. Ia adalah harga lesen - satu faktor dalam banyak faktor.
Microsoft Presidio berharga €0 untuk dimuat turun. Perisian ini adalah sumber terbuka. Tetapi menjalankannya di sebuah syarikat insurans berharga lebih daripada €13,000 pada tahun pertama. Jurang itu adalah masa kejuruteraan.
Apa Yang Diperlukan Oleh Penggunaan Pengeluaran
Menyediakan alat untuk pengeluaran mengambil masa 40-80 jam. Berikut adalah di mana masa itu pergi.
Persediaan Docker: 4-8 jam. Alat ini menggunakan beberapa kontena. Perkhidmatan penganalisis, perkhidmatan penyamar, dan penyunting imej pilihan. Menjadikan mereka berkomunikasi antara satu sama lain adalah sukar. Isu GitHub menunjukkan ia adalah titik kegagalan yang biasa.
Persediaan Python: 2-4 jam. Pustaka mempunyai peraturan versi yang ketat. Konflik adalah biasa - terutamanya antara versi model spaCy dan Python 3.8/3.9/3.10. GitHub menunjukkan ratusan isu terbuka mengenai topik ini.
Muat turun model bahasa: 2-4 jam. Model spaCy berkisar daripada 300 MB hingga 1.4 GB setiap satu. Persediaan lima bahasa memerlukan 1.5-7 GB storan. Kegagalan pemuatan model adalah antara isu sokongan yang paling biasa.
Pengenal tersuai: 8-16 jam. Set lalai merangkumi kira-kira 40 jenis entiti. Kebanyakannya adalah pengecam AS. Penggunaan EU memerlukan ID nasional Eropah. Pasukan penjagaan kesihatan memerlukan format rekod perubatan. Setiap jenis memerlukan kod Python, persediaan YAML, dan pengujian.
Persediaan API: 4-8 jam. Konfigurasi pengeluaran merangkumi tamat masa, pengesahan, had kadar, dan pembalakan. Dokumen rasmi adalah tipis. Kebanyakan pasukan mencari jawapan dalam thread isu GitHub.
Pembalakan audit: 4-8 jam. GDPR memerlukan rekod pemprosesan data. Alat ini tidak mempunyai log audit secara lalai. Pasukan mesti menulisnya sebagai kod tersuai.
Dokumentasi pasukan: 4-8 jam.
Jumlah persediaan awal: 28-52 jam pada €100/jam = €2,800-5,200.
Kos Penyelenggaraan Tahunan
Alat ini menghantar kemas kini 2-4 kali setahun. Keluaran utama telah memecahkan API. Mengikuti perkembangan bermakna menjejaki perubahan, menguji dalam peringkat, dan menggunakan.
Kemas kini model spaCy juga menambah kerja. Versi model baharu perlu dimuat turun semula dan semakan ketepatan sebelum digunakan secara langsung.
Konflik kebergantungan Python terus berlaku. Persediaan yang bersih hari ini mungkin rosak apabila tampalan keselamatan dihantar bulan depan.
Pemantauan adalah berterusan juga. Kesihatan kontena, kebocoran memori, dan langkah mulakan semula semuanya memerlukan perhatian tetap. Model spaCy adalah berat memori.
Jumlah penyelenggaraan tahunan: 60-120 jam pada €100/jam = €6,000-12,000.
Kajian Kes Dunia Nyata
Pasukan pematuhan di sebuah firma insurans berhasrat memproses dokumen tuntutan. Mereka mempunyai dua jurutera data muda dan tiada sokongan DevOps.
Minggu 1. Dua kontena utama tidak dapat berkomunikasi antara satu sama lain. Tiga hari untuk membetulkan dengan bantuan daripada GitHub.
Minggu 2. Model gagal dimuatkan dalam pengeluaran. Konfigurasi memori berbeza daripada persediaan dev. Dua hari untuk mendiagnosis, satu lagi untuk membetulkan.
Minggu 3. Peraturan Nombor Insurans Nasional UK tersuai berfungsi dalam ujian tetapi memukul positif palsu pada dokumen sebenar. Dua hari lagi penalaan.
Minggu 4. Projek itu dinaikkan taraf. Tiga minggu kejuruteraan dihabiskan. Masih belum dalam pengeluaran.
Pasukan kemudian mencuba anonym.legal. Dokumen pertama diproses: 12 minit selepas pendaftaran. Pengesanan Nombor Insurans Nasional UK sudah tersedia. Tiada persediaan diperlukan.
Mereka berpindah ke anonym.legal Professional pada €180/tahun.
TCO tahun pertama:
- Laluan hos sendiri - 40-80 jam lagi untuk disiapkan, kemudian €6,000-12,000/tahun untuk penyelenggaraan. Jumlah: €10,000-20,000.
- anonym.legal Professional - €180/tahun. Masa penggunaan: ~12 minit.
- Jam kejuruteraan yang dijimatkan: ~132/tahun pada €100/jam = €13,200.
Itu adalah jurang kos 70x pada tahun pertama.
Untuk pasukan yang juga menghadapi isu positif palsu, lihat siaran kami tentang masalah ketepatan Presidio.
Bila Hos Sendiri Lebih Masuk Akal
SaaS terurus menang untuk kebanyakan pasukan. Tetapi hos sendiri sesuai untuk beberapa kes.
Kedaulatan data. Sesetengah peraturan atau kontrak melarang menghantar data ke luar. Aplikasi Desktop kami (anonym.plus) berjalan sepenuhnya luar talian. Tiada data meninggalkan mesin. Ketepatan yang sama, tiada pelayan diperlukan.
Volum yang sangat tinggi. Berjuta-juta panggilan API sehari boleh menolak harga per panggilan melebihi kos pelayan. Pada skala itu, memiliki timbunan adalah masuk akal.
Integrasi produk. Membina pengesanan PII ke dalam produk anda sendiri dan memerlukan kawalan penuh? Kerja sumber terbuka tersuai adalah sah di sini.
DevOps sedia ada. Pasukan dengan pasukan platform yang sudah menjalankan banyak perkhidmatan menghadapi kos tambahan yang lebih rendah. Infrastruktur adalah kos tertanggung bagi mereka.
Bagi semua orang lain - pasukan pematuhan, syarikat permulaan, pasukan tanpa DevOps - SaaS terurus adalah pilihan yang jelas. Lihat gambaran keseluruhan pematuhan keselamatan kami untuk cara pemprosesan yang dihoskan memenuhi keperluan perusahaan.
Kesimpulan
Alat sumber terbuka mempunyai kos yang tidak muncul dalam lesen. Untuk jenis alat ini, kos besar adalah masa kejuruteraan. Persediaan: 40-80 jam. Penyelenggaraan tahunan: 60-120 jam. Pada kadar biasa, laluan hos sendiri berharga 20-75x lebih daripada perkhidmatan terurus.
Soalan yang betul bukan "berapakah harga perisian?" Ia adalah "berapakah kos menjalankannya?" Bagi kebanyakan pasukan, jawapan itu menunjuk kepada SaaS terurus.
Sumber
Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.
Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.
GDPR Article 32: Technical measures for appropriate security. VERIFIED-EXTERNAL.