Tidak Semua Alat De-Identification Sama
Saat mengevaluasi alat de-identification PHI, akurasi adalah segalanya. Perbedaan 4% dalam tingkat deteksi mungkin terlihat kecil—sampai Anda menyadari bahwa 4% dari dataset satu juta catatan adalah 40.000 catatan yang terbuka.
Tolok ukur terbaru dari ECIR 2025 mengungkapkan perbedaan dramatis dalam akurasi deteksi PHI di seluruh alat terkemuka.
Hasil Tolok Ukur ECIR 2025
| Alat | Skor F1 | Presisi | Recall |
|---|---|---|---|
| John Snow Labs | 96% | 95% | 97% |
| Azure AI | 91% | 90% | 92% |
| AWS Comprehend Medical | 83% | 81% | 85% |
| GPT-4o | 79% | 82% | 76% |
Skor F1 menggabungkan presisi (berapa banyak entitas yang terdeteksi benar) dan recall (berapa banyak entitas sebenarnya yang terdeteksi). Keduanya penting:
- Presisi rendah = positif palsu (over-redaction)
- Recall rendah = negatif palsu (PII yang hilang = pelanggaran)
Mengapa Kesenjangan Ada
Perbedaan Data Pelatihan
| Alat | Fokus Pelatihan |
|---|---|
| John Snow Labs | Spesifik kesehatan, catatan klinis |
| Azure AI | Medis umum + klinis |
| AWS Comprehend | Entitas medis umum |
| GPT-4o | Pelatihan luas, tidak spesifik kesehatan |
Model John Snow Labs dilatih khusus pada dokumentasi klinis—teks berantakan, disingkat, bergantung konteks yang sebenarnya dihasilkan kesehatan.
Cakupan Tipe Entitas
Tidak semua alat mendeteksi entitas yang sama:
| Entitas | John Snow | Azure | AWS | GPT-4o | |---------|-----------|-------|-----|--------...