Biaya Tersembunyi False Positive Presidio di Lingkungan Legal dan Healthcare
Microsoft Presidio adalah alat deteksi PII open-source yang populer. Namun, tingkat false positive-nya yang tinggi dalam konteks legal dan healthcare menciptakan biaya operasional yang seringkali diremehkan.
Apa Itu False Positive dalam Deteksi PII
False positive terjadi ketika alat mendeteksi sesuatu sebagai PII yang sebenarnya bukan PII. Dalam konteks legal:
- Nomor kasus pengadilan dideteksi sebagai ID pribadi
- Tanggal persidangan dideteksi sebagai tanggal lahir
- Kutipan hukum dideteksi sebagai nomor identifikasi
Dalam konteks healthcare:
- Kode ICD-10 dideteksi sebagai nomor pasien
- Dosis obat dideteksi sebagai nomor telepon
- Singkatan medis diidentifikasi sebagai nama
Mengukur Dampak Biaya
Skenario: Firma hukum yang memproses 200 dokumen/hari
Dengan Presidio standar (rate false positive ~25% untuk dokumen legal):
- 200 dokumen × 15 entitas rata-rata = 3.000 entitas terdeteksi/hari
- 25% false positive = 750 false positive/hari
- Waktu review manusia: 15 detik/entitas = 3,1 jam/hari
- Biaya @ €60/jam = €186/hari = €46.500/tahun
Skenario: Rumah sakit memproses 500 catatan klinis/hari
Dengan Presidio standar (rate false positive ~20% untuk catatan medis):
- 500 catatan × 20 entitas = 10.000 entitas/hari
- 20% false positive = 2.000 review yang tidak perlu/hari
- Biaya tenaga kerja: €90.000+/tahun hanya untuk review false positive
Mengapa Presidio Memiliki False Positive Tinggi di Domain Ini
Presidio dilatih pada data umum dan tidak dioptimalkan untuk:
- Terminologi hukum dan penomoran kasus
- Kode medis dan singkatan klinis
- Format identifier nasional non-AS (BSN, PESEL, NIR, dll.)
- Dokumen dengan campuran teks teknis dan PII nyata
Solusi: Deteksi Berbasis Kepercayaan dengan Domain Tuning
Solusi yang dikelola seperti anonym.legal menawarkan:
- Model yang disetel domain: Dilatih pada teks legal dan healthcare untuk mengurangi false positive
- Ambang kepercayaan yang dapat dikonfigurasi: Menyesuaikan sensitivitas per kasus penggunaan
- Entitas kustom: Definisikan pola yang khusus untuk domain Anda
- Belajar dari koreksi: Sistem meningkat berdasarkan review pengguna
Pengurangan false positive yang dihasilkan: 60-80% dibandingkan Presidio vanilla, diterjemahkan langsung menjadi penghematan tenaga kerja yang signifikan.
Sumber:
- Microsoft Presidio GitHub: Known Issues
- NIST IR 8053: De-identification of Personal Health Information