Diperbarui untuk 2026
Masalah Presisi 22,7%
Sebuah studi 2024 menguji Microsoft Presidio pada berkas bisnis. Presidio adalah alat PII sumber terbuka. Tim hukum dan kelompok kesehatan menggunakannya secara luas.
Studi ini mengukur seberapa sering Presidio benar. Dari semua item yang ditandainya sebagai nama orang, berapa banyak yang benar-benar nama orang?
Jawabannya adalah 22,7%. Sekitar 77 dari setiap 100 tanda salah. Studi ini menghitung 13.536 tanda palsu di 4.434 berkas sampel.
Kesalahannya tidak acak. Mereka mengikuti pola yang jelas:
- Kata ganti ditandai sebagai orang ("I" di awal kalimat)
- Label kapal ditandai sebagai orang ("ASL Scorpio")
- Label perusahaan ditandai sebagai orang ("Deloitte & Touche")
- Istilah negara ditandai sebagai orang ("Argentina," "Singapore")
Tidak ada dari ini yang merupakan kasus tepi yang jarang. Mereka muncul setiap kali model NLP umum bertemu teks khusus domain. Model ini tidak dibangun untuk membedakan mereka.
Apa yang Dibiayai Tanda Palsu
Dalam pekerjaan hukum dan kesehatan, setiap tanda membutuhkan respons. Tim menghadapi tiga pilihan. Ketiganya memiliki biaya nyata.
Pilihan 1: Manusia memeriksa setiap tanda. Waktu pengacara dan ahli berjalan $200 hingga $800 per jam. Pada akurasi 22,7%, volumenya sangat besar. Ini tidak layak dalam skala besar. Lihat Otomatisasi PII eDiscovery dan Pengurangan Biaya Tinjauan Hukum untuk cara biaya tinjauan tumbuh dengan volume.
Pilihan 2: Lewatkan tinjauan dan percaya pada output. Ini juga berisiko. Ketika 77% item yang "diredaksi" tidak sensitif, Anda menciptakan risiko hukum. Pengadilan telah mendenda pengacara karena over-redaksi. Lihat Sanksi Over-Redaksi eDiscovery untuk kasus yang didokumentasikan.
Pilihan 3: Naikkan ambang skor. Presidio memungkinkan pengguna menetapkan score_threshold untuk menghapus tanda lemah. Studi DICOM 2024 menguji ini pada 0,7 — standar yang cukup tinggi. Hasilnya: 38 dari 39 gambar DICOM masih memiliki tanda palsu. Ambang batas membantu. Mereka tidak memperbaiki akar penyebabnya.
Mengapa NLP Umum Berjuang di Sini
Kesenjangan Presidio berasal dari ketidaksesuaian antara data pelatihan dan penggunaan dunia nyata.
Berkas hukum penuh dengan istilah huruf kapital. Nama kasus, judul undang-undang, dan kode pameran semuanya terlihat seperti data pribadi bagi model umum. Itu menandainya. Sebagian besar bukan data pribadi.
Berkas kesehatan menambahkan nama obat, kode perangkat, dan singkatan klinis. "Pt." berarti Pasien. "Dr." berarti Dokter. Ini tersandung pada deteksi entitas dengan cara yang sulit diprediksi.
Berkas keuangan memiliki kode produk, string entitas, dan ID akun yang berbagi pola permukaan dengan catatan pribadi.
Fine-tuning model pada data domain membantu. Namun butuh waktu dan upaya untuk membangun dan terus diperbarui.
Cara Deteksi Hibrida Memperbaiki Ini
Masalah tanda palsu memiliki solusi yang jelas. Bagi pekerjaan berdasarkan jenis data.
Aturan pola untuk data terstruktur. Nomor jaminan sosial, nomor telepon, alamat email, dan format ID mengikuti aturan tetap. String cocok dengan pola dan lulus tes digit cek, atau tidak. Nol tanda palsu untuk set aturan yang valid.
Model bahasa untuk teks bebas. Nama depan dan belakang, label perusahaan, dan lokasi dalam prosa tidak memiliki struktur yang kaku. NLP menemukannya ketika aturan tidak bisa. Skor kepercayaan dan pemeriksaan konteks memotong tingkat tanda palsu.
Pengaturan skor per jenis untuk kontrol halus. Tim hukum yang tidak dapat berisiko over-redaksi menetapkan ambang tinggi untuk kecocokan fuzzy. Tim penelitian yang membutuhkan recall tinggi menetapkan yang lebih rendah. Lihat Deteksi PII Biner dan Penilaian Kepercayaan untuk Kepatuhan untuk cara tingkatan skor bekerja dalam praktik.
Hasilnya jauh lebih sedikit kesalahan daripada default Presidio. Recall tetap kuat di mana aturan saja akan melewatkan terlalu banyak.
Bagi tim hukum dan kesehatan, pertanyaan utamanya bukan apakah tanda palsu ada. Mereka selalu ada dalam sistem NLP. Pertanyaannya adalah apakah alat memungkinkan Anda menetapkan, mengukur, dan mendokumentasikan tradeoff.