Kembali ke BlogPenjagaan Kesihatan

Akurasi Deteksi PHI: John Snow Labs 96% vs. GPT-4o 79%

Tidak semua alat de-identification sama. Tolok ukur ECIR 2025 menunjukkan skor F1 berkisar dari 79% hingga 96%.

February 24, 20267 min baca
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Tidak Semua Alat De-Identification Sama

Saat mengevaluasi alat de-identification PHI, akurasi adalah segalanya. Perbedaan 4% dalam tingkat deteksi mungkin terlihat kecil—sampai Anda menyadari bahwa 4% dari dataset satu juta catatan adalah 40.000 catatan yang terbuka.

Tolok ukur terbaru dari ECIR 2025 mengungkapkan perbedaan dramatis dalam akurasi deteksi PHI di seluruh alat terkemuka.

Hasil Tolok Ukur ECIR 2025

AlatSkor F1PresisiRecall
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

Skor F1 menggabungkan presisi (berapa banyak entitas yang terdeteksi benar) dan recall (berapa banyak entitas sebenarnya yang terdeteksi). Keduanya penting:

  • Presisi rendah = positif palsu (over-redaction)
  • Recall rendah = negatif palsu (PII yang hilang = pelanggaran)

Mengapa Kesenjangan Ada

Perbedaan Data Pelatihan

AlatFokus Pelatihan
John Snow LabsSpesifik kesehatan, catatan klinis
Azure AIMedis umum + klinis
AWS ComprehendEntitas medis umum
GPT-4oPelatihan luas, tidak spesifik kesehatan

Model John Snow Labs dilatih khusus pada dokumentasi klinis—teks berantakan, disingkat, bergantung konteks yang sebenarnya dihasilkan kesehatan.

Cakupan Tipe Entitas

Tidak semua alat mendeteksi entitas yang sama:

| Entitas | John Snow | Azure | AWS | GPT-4o | |---------|-----------|-------|-----|--------...

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.