Mengapa Regex Gagal pada Spreadsheet GDPR
Excel dan spreadsheet terstruktur berbeda dari dokumen format-bebas dalam cara PII didistribusikan. Dokumen word processing memiliki teks yang mengalir di mana PII biasanya dikontekstualisasikan oleh kalimat di sekitarnya. Spreadsheet tidak: data terstruktur dalam kolom tanpa konteks naratif.
Alat redaksi berbasis Regex dirancang untuk menemukan pola literal (seperti nomor kartu kredit yang cocok dengan pola \d{4}-\d{4}-\d{4}-\d{4}). Mereka bekerja dengan baik pada dokumen naratif yang mengandung pola yang jelas. Namun pada spreadsheet, konteks kolom hilang ketika Regex menjalankan pencarian literal.
Contoh: spreadsheet pelanggan memiliki kolom bernama "reference_id". Kolom ini berisi pengenal buatan yang terlihat seperti nomor kartu kredit (12 digit diformat sebagai ####-####-####). Alat berbasis Regex akan menandai setiap nilai di kolom ini sebagai PII. Namun, reference_id bukanlah PII — itu adalah pengidentifikasi buatan untuk tujuan referensi. Regex tidak memiliki konteks untuk membedakan antara PII nyata dan pengenal non-PII yang mirip dengan pola.