Tantangan Presisi dalam Deteksi Nomor Pajak
Nomor pajak dan identitas pajak adalah PII tingkat tinggi yang memerlukan deteksi akurat dalam kepatuhan pajak dan e-discovery audit. Namun alat deteksi PII umum menghasilkan tingkat positif salah yang tinggi ketika mengidentifikasi nomor pajak di dokumen terstruktur.
Studi presisi 2025 menunjukkan bahwa sistem deteksi berbasis Regex dan ML menghasilkan 8-14% positif salah pada nomor pajak di spreadsheet dan database. Artinya, dalam set 100 item yang ditandai sebagai "nomor pajak," 8-14 di antaranya bukan nomor pajak sama sekali — mereka adalah kode produk, nomor pelanggan, atau pengenal inventaris yang mirip dengan pola nomor pajak.
Positif salah di tingkat 8-14% menciptakan masalah praktis dalam audit pajak dan pengajuan e-discovery. Auditor dan pengacara harus meninjau manual setiap bendera untuk mengkonfirmasi apakah itu PII nyata atau positif salah. Pada dataset 10.000 catatan, ini berarti 800-1.400 item harus ditinjau manual.