By · Last updated 2026-03-23

Kembali ke BlogTeknis

Positif Palsu: Mengapa Redaksi ML Gagal

Benchmark 2024 menemukan Presidio menghasilkan 13.536 deteksi nama positif palsu di 4.434 sampel — menandai kata ganti, nama kapal, dan negara sebagai.

March 23, 20268 menit baca
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Diperbarui untuk 2026

Masalah Presisi 22,7%

Sebuah studi 2024 menguji Microsoft Presidio pada berkas bisnis. Presidio adalah alat PII sumber terbuka. Tim hukum dan kelompok kesehatan menggunakannya secara luas.

Studi ini mengukur seberapa sering Presidio benar. Dari semua item yang ditandainya sebagai nama orang, berapa banyak yang benar-benar nama orang?

Jawabannya adalah 22,7%. Sekitar 77 dari setiap 100 tanda salah. Studi ini menghitung 13.536 tanda palsu di 4.434 berkas sampel.

Kesalahannya tidak acak. Mereka mengikuti pola yang jelas:

  • Kata ganti ditandai sebagai orang ("I" di awal kalimat)
  • Label kapal ditandai sebagai orang ("ASL Scorpio")
  • Label perusahaan ditandai sebagai orang ("Deloitte & Touche")
  • Istilah negara ditandai sebagai orang ("Argentina," "Singapore")

Tidak ada dari ini yang merupakan kasus tepi yang jarang. Mereka muncul setiap kali model NLP umum bertemu teks khusus domain. Model ini tidak dibangun untuk membedakan mereka.

Apa yang Dibiayai Tanda Palsu

Dalam pekerjaan hukum dan kesehatan, setiap tanda membutuhkan respons. Tim menghadapi tiga pilihan. Ketiganya memiliki biaya nyata.

Pilihan 1: Manusia memeriksa setiap tanda. Waktu pengacara dan ahli berjalan $200 hingga $800 per jam. Pada akurasi 22,7%, volumenya sangat besar. Ini tidak layak dalam skala besar. Lihat Otomatisasi PII eDiscovery dan Pengurangan Biaya Tinjauan Hukum untuk cara biaya tinjauan tumbuh dengan volume.

Pilihan 2: Lewatkan tinjauan dan percaya pada output. Ini juga berisiko. Ketika 77% item yang "diredaksi" tidak sensitif, Anda menciptakan risiko hukum. Pengadilan telah mendenda pengacara karena over-redaksi. Lihat Sanksi Over-Redaksi eDiscovery untuk kasus yang didokumentasikan.

Pilihan 3: Naikkan ambang skor. Presidio memungkinkan pengguna menetapkan score_threshold untuk menghapus tanda lemah. Studi DICOM 2024 menguji ini pada 0,7 — standar yang cukup tinggi. Hasilnya: 38 dari 39 gambar DICOM masih memiliki tanda palsu. Ambang batas membantu. Mereka tidak memperbaiki akar penyebabnya.

Mengapa NLP Umum Berjuang di Sini

Kesenjangan Presidio berasal dari ketidaksesuaian antara data pelatihan dan penggunaan dunia nyata.

Berkas hukum penuh dengan istilah huruf kapital. Nama kasus, judul undang-undang, dan kode pameran semuanya terlihat seperti data pribadi bagi model umum. Itu menandainya. Sebagian besar bukan data pribadi.

Berkas kesehatan menambahkan nama obat, kode perangkat, dan singkatan klinis. "Pt." berarti Pasien. "Dr." berarti Dokter. Ini tersandung pada deteksi entitas dengan cara yang sulit diprediksi.

Berkas keuangan memiliki kode produk, string entitas, dan ID akun yang berbagi pola permukaan dengan catatan pribadi.

Fine-tuning model pada data domain membantu. Namun butuh waktu dan upaya untuk membangun dan terus diperbarui.

Cara Deteksi Hibrida Memperbaiki Ini

Masalah tanda palsu memiliki solusi yang jelas. Bagi pekerjaan berdasarkan jenis data.

Aturan pola untuk data terstruktur. Nomor jaminan sosial, nomor telepon, alamat email, dan format ID mengikuti aturan tetap. String cocok dengan pola dan lulus tes digit cek, atau tidak. Nol tanda palsu untuk set aturan yang valid.

Model bahasa untuk teks bebas. Nama depan dan belakang, label perusahaan, dan lokasi dalam prosa tidak memiliki struktur yang kaku. NLP menemukannya ketika aturan tidak bisa. Skor kepercayaan dan pemeriksaan konteks memotong tingkat tanda palsu.

Pengaturan skor per jenis untuk kontrol halus. Tim hukum yang tidak dapat berisiko over-redaksi menetapkan ambang tinggi untuk kecocokan fuzzy. Tim penelitian yang membutuhkan recall tinggi menetapkan yang lebih rendah. Lihat Deteksi PII Biner dan Penilaian Kepercayaan untuk Kepatuhan untuk cara tingkatan skor bekerja dalam praktik.

Hasilnya jauh lebih sedikit kesalahan daripada default Presidio. Recall tetap kuat di mana aturan saja akan melewatkan terlalu banyak.

Bagi tim hukum dan kesehatan, pertanyaan utamanya bukan apakah tanda palsu ada. Mereka selalu ada dalam sistem NLP. Pertanyaannya adalah apakah alat memungkinkan Anda menetapkan, mengukur, dan mendokumentasikan tradeoff.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.