Dikemas kini untuk 2026
Masalah Ketepatan 22.7%
Kajian 2024 menguji Microsoft Presidio pada fail perniagaan. Presidio adalah alat PII sumber terbuka. Pasukan undang-undang dan kumpulan kesihatan menggunakannya secara meluas.
Kajian itu mengukur seberapa kerap Presidio betul. Daripada semua item yang ditandainya sebagai nama orang, berapa banyak yang sebenarnya nama orang?
Jawapannya ialah 22.7%. Kira-kira 77 daripada setiap 100 tanda adalah salah. Kajian itu mengira 13,536 tanda palsu merentasi 4,434 fail sampel.
Ralatnya tidak rawak. Mereka mengikuti pola yang jelas:
- Kata ganti nama ditandai sebagai orang ("I" di awal ayat)
- Label kapal ditandai sebagai orang ("ASL Scorpio")
- Label syarikat ditandai sebagai orang ("Deloitte & Touche")
- Istilah negara ditandai sebagai orang ("Argentina," "Singapore")
Tidak satu pun daripada ini adalah kes tepi yang jarang berlaku. Mereka muncul setiap kali model NLP umum bertemu teks khusus domain. Model tidak dibina untuk membezakan mereka.
Kos Tanda Palsu
Dalam kerja undang-undang dan kesihatan, setiap tanda memerlukan tindak balas. Pasukan menghadapi tiga pilihan. Ketiga-tiganya mempunyai kos yang nyata.
Pilihan 1: Manusia menyemak setiap tanda. Masa peguam dan pakar berharga $200 hingga $800 sejam. Pada ketepatan 22.7%, jumlahnya adalah besar. Ini tidak boleh dilaksanakan pada skala. Lihat Automasi PII eDiscovery dan Pengurangan Kos Semakan Undang-undang untuk cara kos semakan berkembang dengan jumlah.
Pilihan 2: Langkau semakan dan percayai output. Ini juga berisiko. Apabila 77% item yang "diredaksi" tidak sensitif, anda mencipta risiko undang-undang. Mahkamah telah mendenda peguam kerana redaksi berlebihan. Lihat Sekatan Redaksi Berlebihan eDiscovery untuk kes-kes yang didokumenkan.
Pilihan 3: Naikkan ambang skor. Presidio membenarkan pengguna menetapkan score_threshold untuk menjatuhkan tanda lemah. Kajian DICOM 2024 menguji ini pada 0.7 — ukuran yang agak tinggi. Hasilnya: 38 daripada 39 imej DICOM masih mempunyai tanda palsu. Ambang membantu. Ia tidak membetulkan punca akar.
Mengapa NLP Umum Bergelut di Sini
Jurang Presidio berpunca daripada ketidakpadanan antara data latihan dan penggunaan dunia nyata.
Fail undang-undang penuh dengan istilah huruf besar. Nama kes, tajuk undang-undang, dan kod pameran semua kelihatan seperti data peribadi kepada model umum. Ia menandainya. Kebanyakannya bukan data peribadi.
Fail kesihatan menambah nama ubat, kod peranti, dan bentuk ringkas klinikal. "Pt." bermakna Pesakit. "Dr." bermakna Doktor. Ini mengacau pengesanan entiti dengan cara yang sukar diramalkan.
Fail kewangan mempunyai kod produk, rentetan entiti, dan ID akaun yang berkongsi pola permukaan dengan rekod peribadi.
Penyesuaian halus model pada data domain membantu. Tetapi ia memerlukan masa dan usaha untuk dibina dan dikemas kini.
Cara Pengesanan Hibrid Membetulkan Ini
Masalah tanda palsu mempunyai penyelesaian yang jelas. Bahagikan kerja mengikut jenis data.
Peraturan corak untuk data berstruktur. Nombor keselamatan sosial, nombor telefon, alamat e-mel, dan format ID mengikuti peraturan tetap. Rentetan sama ada memadani corak dan lulus ujian digit semak, atau tidak. Sifar tanda palsu untuk set peraturan yang sah.
Model bahasa untuk teks bebas. Nama pertama dan akhir, label syarikat, dan lokasi dalam prosa tidak mempunyai struktur yang tegar. NLP menemuinya apabila peraturan tidak dapat. Skor keyakinan dan semakan konteks mengurangkan kadar tanda palsu.
Tetapan skor setiap jenis untuk kawalan halus. Pasukan undang-undang yang tidak boleh berisiko redaksi berlebihan menetapkan ambang tinggi untuk padanan kabur. Pasukan penyelidikan yang memerlukan daya ingatan tinggi menetapkan yang lebih rendah. Lihat Pengesanan PII Binari dan Pemarkahan Keyakinan untuk Pematuhan untuk cara peringkat skor berfungsi dalam amalan.
Hasilnya adalah lebih sedikit ralat daripada lalai Presidio. Daya ingatan kekal kukuh di mana peraturan sahaja akan terlepas terlalu banyak.
Bagi pasukan undang-undang dan kesihatan, soalan utama bukan sama ada tanda palsu wujud. Mereka sentiasa ada dalam sistem NLP. Soalannya ialah sama ada alat membenarkan anda menetapkan, mengukur, dan mendokumenkan pertukaran itu.