By · Last updated 2026-06-05

Kembali ke BlogTeknis

Masalah Presisi 22,7% Presidio

Benchmark 2024 menemukan bahwa pengenal nama orang Presidio mencapai presisi 22,7% dalam dokumen bisnis — artinya 77,3% deteksi adalah false positive.

June 5, 20267 menit baca
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Masalah Presisi 22,7% Presidio

False positive dalam deteksi PII menyebabkan kerusakan nyata. Ketika 77,3% dari apa yang ditandai alat Anda sebagai "nama orang" bukan nama sungguhan, Anda tidak melindungi privasi. Anda merusak data.

Sebuah benchmark 2024 menguji model NER default Microsoft Presidio pada dokumen bisnis. Pengujian mencakup laporan keuangan, surat pelanggan, dokumen produk, dan tiket dukungan. Hasilnya: presisi 22,7% untuk deteksi nama.

Angka itu mengejutkan. Dari setiap 100 item yang ditandai, 23 adalah nama individu nyata. 77 lainnya adalah false positive — label produk, istilah merek, atau label kota.

Tiga dari empat deteksi salah. Itu bukan masalah kalibrasi kecil. Itu adalah alat yang rusak untuk pekerjaan dokumen bisnis.

Mengapa Ini Terjadi

Presidio menggunakan model en_core_web_lg milik spaCy secara default. Model ini belajar dari teks berita. Dalam berita, sebagian besar kata benda khusus adalah orang atau tempat nyata.

Dokumen bisnis berbeda.

Label produk yang terlihat seperti nama individu. "Apple iPhone 15 Pro shipment records" ditandai sebagai PERSON. Begitu pula "Samsung Galaxy Tab" dan "Cisco Meraki deployment."

Istilah perusahaan dengan bagian yang mirip nama. Dalam "Johnson Controls results," kata "Johnson" ditandai sebagai PERSON. "Goldman Sachs portfolio" memicu kesalahan yang sama.

Label lokasi yang memicu deteksi orang. "Victoria Harbour project" menandai "Victoria" sebagai PERSON. "Santiago hub" menandai "Santiago" dengan cara yang sama.

Model tidak memiliki konteks untuk membedakan "Apple" (perusahaan) dari "Apple Smith" (orang). Kesenjangan itulah akar dari sebagian besar false positive. Teks berita mengajarkannya untuk memperlakukan kata benda khusus sebagai orang atau tempat. Teks bisnis sering melanggar aturan itu.

Dampak Hilir

Sebuah firma data menggunakan Presidio untuk membersihkan survei pelanggan sebelum dibagikan. Audit menemukan empat masalah. Pertama, 40% survei memiliki label produk yang salah dihapus. Kedua, label kota dihapus dari setiap respons. Ketiga, penyebutan merek dihapus dari set analisis. Keempat, sentimen tentang produk tertentu tidak dapat dibaca.

Tim analisis menerima teks yang disunting dengan semua referensi produk dihapus. Survei aslinya menyebut iPhone Pro dan pengisi daya Apple. Makna itu hilang.

Firma itu tidak melindungi privasi dengan lebih baik. Ia merusak data tanpa mendapatkan kepatuhan. Presidio diganti setelah audit.

Lihat ikhtisar kepatuhan kami untuk mengetahui bagaimana kualitas deteksi memengaruhi posisi regulasi Anda.

Pendekatan yang Lebih Baik: Deteksi Hibrida

Masalah ini tidak unik untuk Presidio. NER pada level token tanpa konteks akan selalu menghadapi masalah ini. Solusinya adalah deteksi yang sadar konteks.

Mengapa transformer membantu: Model seperti XLM-RoBERTa membaca kalimat lengkap. "Apple announced its earnings" → Apple adalah perusahaan. "Apple Smith joined the team" → Apple adalah nama depan. Konteks memberi tahu mana yang mana.

Ini meningkatkan presisi sekaligus menjaga recall tetap tinggi. Lihat perbandingan di bawah.

PendekatanPresisiRecall
Presidio NER default22,7%~85%
Regex saja~95%~40%
Hibrida (Regex + NLP + Transformer)~85%~80%

Pendekatan hibrida mencapai presisi 85%. Artinya tingkat false positive 15%. Jauh lebih baik dari 77,3%. Untuk dokumen bisnis, perbedaan ini sangat berarti.

Tumpukan hibrida memiliki empat langkah:

  1. Lapisan Regex: Menemukan ID terstruktur — email, nomor telepon, SSN, IBAN. Formatnya tetap, sehingga false positive jarang. Ini berjalan pertama.

  2. Lapisan NLP (spaCy): NER standar untuk orang, firma, dan tempat. Recall tinggi, presisi lebih rendah.

  3. Lapisan Transformer (XLM-RoBERTa): Menilai ulang setiap hasil NLP menggunakan konteks kalimat penuh. "Apple" dalam konteks produk kehilangan skor entitasnya. "John" dalam teks keluhan mendapatkannya.

  4. Ambang batas keyakinan: Hanya hasil di atas skor yang ditentukan yang masuk ke output. Naikkan ambang batas untuk kasus analitik. Turunkan untuk de-identifikasi HIPAA.

Hasil Setelah Beralih

Firma analitik beralih ke deteksi hibrida. Hasilnya jelas. False positive label produk turun dari 40% menjadi 3%. False positive label kota turun mendekati nol. Recall identitas nyata tetap sekitar 82%, sedikit turun dari 85%, tetapi presisi meningkat signifikan.

Survei menjadi dapat digunakan kembali. "iPhone," "Apple," "Samsung," dan "Chicago" tetap ada dalam teks. Nama pelanggan dalam konteks keluhan dihapus dengan benar.

Deteksi hibrida membutuhkan lebih banyak komputasi. Untuk pekerjaan besar, waktu proses sedikit lebih lama. Untuk sebagian besar kasus penggunaan bisnis, peningkatan akurasi sepadan. Firma itu bisa menjalankan analisis lagi. Itulah tujuan data survei.

Baca tentang pendekatan deteksi kami di ikhtisar keamanan.

Kapan Tingkat False Positive Tinggi Dapat Diterima

Beberapa kasus lebih mengutamakan recall daripada presisi.

HIPAA Safe Harbor: Melewatkan true positive adalah pelanggaran. Tingkat false positive 10% tidak masalah selama PHI nyata tidak pernah terlewat. Penghapusan berlebih lebih aman daripada penghapusan kurang.

Review legal: Melewatkan kontak yang berprivilege dapat menghapus hak privilege. False positive perlu ditinjau tetapi tidak menciptakan kewajiban hukum.

Analitik bisnis: Penghapusan berlebih merusak data tanpa keuntungan kepatuhan. Presisi lebih penting di sini. Gunakan pendekatan hibrida dengan ambang batas keyakinan tinggi. Ini menjaga label merek dan istilah kota dalam output. Hanya nama orang sebenarnya yang dihapus.

Keseimbangan yang tepat bergantung pada kasus penggunaan Anda. Alat yang memungkinkan Anda mengatur ambang batas memberi Anda kontrol. Tidak ada satu default yang cocok untuk setiap konteks.

Lihat FAQ kami untuk pertanyaan umum tentang ambang batas dan mode deteksi.

Kesimpulan

Tingkat presisi 22,7% berarti 3 dari 4 deteksi salah. Untuk dokumen bisnis, itu membuat output tidak dapat digunakan untuk analisis. Ini juga memberikan kepercayaan palsu tentang kepatuhan.

Deteksi hibrida memperbaiki ini. Ia menggabungkan regex, NLP, dan penilaian transformer. Data tetap berguna setelah anonimisasi. Nama orang nyata dihapus. Label merek, istilah kota, dan pengidentifikasi produk tetap ada.

Jika Anda meninggalkan Presidio karena masalah false positive, inilah jalan ke depan. Bukan konfigurasi baru dari model yang sama. Melainkan arsitektur berbeda yang dibangun untuk konteks dokumen bisnis.

Sumber

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.