Masalah Ketepatan 22.7% Presidio
Positif palsu dalam pengesanan PII menyebabkan kerosakan nyata. Apabila 77.3% daripada apa yang alat anda tandakan sebagai "nama orang" bukan nama sebenar, anda bukan sedang melindungi privasi. Anda sedang merosakkan data.
Penanda aras 2024 menguji model NER lalai Microsoft Presidio pada dokumen perniagaan. Ujian merangkumi laporan kewangan, surat pelanggan, dokumen produk, dan tiket sokongan. Hasilnya: ketepatan 22.7% untuk pengesanan nama.
Angka itu mengejutkan. Bagi setiap 100 item yang ditandakan, 23 adalah nama individu sebenar. 77 yang lain adalah positif palsu - label produk, istilah jenama, atau label bandar.
Tiga daripada empat pengesanan adalah salah. Itu bukan isu kalibrasi kecil. Itu alat yang rosak untuk kerja dokumen perniagaan.
Mengapa Ini Berlaku
Presidio menggunakan model en_core_web_lg spaCy secara lalai. Model ini belajar daripada teks berita. Dalam berita, kebanyakan kata nama khas adalah orang atau tempat sebenar.
Dokumen perniagaan adalah berbeza.
Label produk yang kelihatan seperti nama individu. "Apple iPhone 15 Pro shipment records" ditandakan sebagai PERSON. Begitu juga "Samsung Galaxy Tab" dan "Cisco Meraki deployment."
Istilah syarikat dengan bahagian seperti nama. Dalam "Johnson Controls results," perkataan "Johnson" ditandakan sebagai PERSON. "Goldman Sachs portfolio" mencetuskan ralat yang sama.
Label lokasi yang mencetuskan pengesanan orang. "Victoria Harbour project" menandakan "Victoria" sebagai PERSON. "Santiago hub" menandakan "Santiago" dengan cara yang sama.
Model ini tidak mempunyai konteks untuk membezakan "Apple" (syarikat) daripada "Apple Smith" (seseorang). Jurang itu adalah punca kebanyakan positif palsu. Teks berita mengajarnya untuk melayan kata nama khas sebagai orang atau tempat. Teks perniagaan melanggar peraturan tersebut sepanjang masa.
Kesan Hiliran
Sebuah firma data menggunakan Presidio untuk membersihkan tinjauan pelanggan sebelum berkongsinya. Audit menemukan empat masalah. Pertama, 40% tinjauan mempunyai label produk yang dibuang secara salah. Kedua, label bandar dilucutkan daripada setiap respons. Ketiga, sebutan jenama dihapuskan daripada set analisis. Keempat, sentimen tentang produk tertentu tidak dapat dibaca.
Pasukan analisis menerima teks yang ditapis dengan semua rujukan produk dibuang. Tinjauan pada asalnya menyebut iPhone Pro dan pengecas Apple. Makna itu hilang.
Firma tersebut bukan melindungi privasi dengan lebih baik. Ia merosakkan data tanpa mendapat pematuhan. Presidio digantikan selepas audit.
Lihat gambaran keseluruhan pematuhan kami untuk cara kualiti pengesanan mempengaruhi kedudukan pengawalseliaan anda.
Pendekatan Lebih Baik: Pengesanan Hibrid
Masalah ini bukan unik kepada Presidio. NER peringkat token tanpa konteks akan sentiasa menghadapi isu ini. Penyelesaiannya adalah pengesanan sedar konteks.
Mengapa transformer membantu: Model seperti XLM-RoBERTa membaca ayat penuh. "Apple announced its earnings" - Apple adalah firma. "Apple Smith joined the team" - Apple adalah nama pertama. Konteks memberitahu anda yang mana satu.
Ini meningkatkan ketepatan sambil mengekalkan imbas kembali yang tinggi. Lihat perbandingan di bawah.
| Pendekatan | Ketepatan | Imbas Kembali | |----------|-----------|--------|| | NER lalai Presidio | 22.7% | ~85% | | Regex sahaja | ~95% | ~40% | | Hibrid (Regex + NLP + Transformer) | ~85% | ~80% |
Pendekatan hibrid mencapai ketepatan 85%. Itu bermakna kadar positif palsu 15%. Jauh lebih baik daripada 77.3%. Untuk dokumen perniagaan, jurang ini penting.
Timbunan hibrid mempunyai empat langkah:
-
Lapisan Regex: Mencari ID berstruktur - e-mel, nombor telefon, SSN, IBAN. Format adalah tetap, jadi positif palsu jarang berlaku. Ini dijalankan dahulu.
-
Lapisan NLP (spaCy): NER standard untuk orang, firma, dan tempat. Imbas kembali tinggi, ketepatan lebih rendah.
-
Lapisan Transformer (XLM-RoBERTa): Mencetak semula setiap hasil NLP menggunakan konteks ayat penuh. "Apple" dalam konteks produk kehilangan skor entiti. "John" dalam teks aduan mendapat skor yang lebih tinggi.
-
Ambang keyakinan: Hanya hits melebihi skor yang ditetapkan yang lulus ke output. Naikkan ambang untuk kes penggunaan analitik. Turunkan untuk penyahpengenalan HIPAA.
Keputusan Selepas Beralih
Firma analitik beralih kepada pengesanan hibrid. Keuntungan adalah jelas. Positif palsu label produk turun daripada 40% kepada 3%. Positif palsu label bandar turun hampir kepada sifar. Imbas kembali identiti sebenar kekal pada ~82%, sedikit turun daripada 85%, tetapi ketepatan meningkat dengan banyak.
Tinjauan menjadi boleh digunakan semula. "iPhone," "Apple," "Samsung," dan "Chicago" kekal dalam teks. Nama pelanggan dalam konteks aduan dibuang dengan betul.
Pengesanan hibrid memerlukan lebih banyak pengiraan. Untuk kerja besar, masa jalan sedikit lebih lama. Untuk kebanyakan kes penggunaan perniagaan, peningkatan ketepatan adalah berbaloi. Firma itu dapat menjalankan analisis semula. Itulah tujuan data tinjauan tersebut.
Baca tentang pendekatan pengesanan kami dalam gambaran keseluruhan keselamatan.
Bila Kadar Positif Palsu Tinggi Boleh Diterima
Sesetengah kes mengutamakan imbas kembali berbanding ketepatan.
HIPAA Safe Harbor: Terlepas positif sebenar adalah pelanggaran. Kadar positif palsu 10% adalah baik jika PHI sebenar tidak pernah terlepas. Penyingkiran berlebihan lebih selamat daripada penyingkiran kurang.
Semakan undang-undang: Terlepas kenalan istimewa mungkin mengetepikan keistimewaan. Positif palsu memerlukan semakan tetapi tidak mewujudkan liabiliti.
Analitik perniagaan: Penyingkiran berlebihan merosakkan data tanpa keuntungan pematuhan. Ketepatan lebih penting di sini. Gunakan pendekatan hibrid dengan ambang keyakinan tinggi. Ini mengekalkan label jenama dan istilah bandar dalam output. Hanya nama orang sebenar yang dibuang.
Keseimbangan yang betul bergantung kepada kes penggunaan anda. Alat yang membolehkan anda menetapkan ambang memberikan kawalan. Tiada satu lalai yang berfungsi untuk setiap konteks.
Lihat FAQ kami untuk soalan biasa tentang ambang dan mod pengesanan.
Kesimpulan
Kadar ketepatan 22.7% bermakna 3 daripada 4 pengesanan adalah salah. Untuk dokumen perniagaan, itu menjadikan output tidak boleh digunakan untuk analisis. Ia juga memberikan keyakinan palsu tentang pematuhan.
Pengesanan hibrid membetulkan ini. Ia menggabungkan regex, NLP, dan pemarkahan transformer. Data kekal berguna selepas penyamaran. Nama orang sebenar dibuang. Label jenama, istilah bandar, dan pengecam produk kekal.
Jika anda meninggalkan Presidio kerana isu positif palsu, inilah jalan ke hadapan. Bukan konfigurasi baharu model yang sama. Seni bina berbeza yang dibina untuk konteks dokumen perniagaan.
Sumber
Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.
Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.