By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

PII di Excel: Anonimkan Ratusan Kolom

Excel termasuk jenis dokumen dengan kepadatan PII tertinggi dalam operasi bisnis. Berikut alasan analisis teks standar gagal pada spreadsheet dan apa yang ditawarkan konteks kolom.

June 5, 20268 menit baca
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Mengapa Excel Adalah Jenis File Berisiko Tertinggi Anda

File Excel adalah salah satu risiko GDPR terbesar di sebagian besar bisnis. Rekam medis mungkin mengandung data lebih sensitif per barisnya. Tetapi spreadsheet menumpuk PII dengan cepat — dan tim kepatuhan sering melewatkannya.

Tiga hal yang membuat file Excel sulit dikelola.

Volume: Satu file XLSX bisa memuat 50.000 baris dan 100 kolom. Itu lima juta sel. Tidak ada tinjauan manual yang bisa memeriksa semuanya.

Tata letak grid: Teks mengalir dalam satu arah. Excel menyebarkan data di baris dan kolom. Data pribadi bisa tersembunyi di mana saja dalam grid itu.

Konten campuran: Kisaran gaji, kode departemen, dan peringkat jabatan ada dalam file yang sama dengan SSN dan alamat email. Menghapus semuanya membuat file tidak berguna.

Retensi panjang: Daftar staf dan catatan pelanggan bertahan di Excel selama bertahun-tahun. GDPR Pasal 5(1)(e) menyatakan data harus disimpan "tidak lebih lama dari yang diperlukan." File yang "mungkin berguna" sering bertahan jauh melewati batas itu.

Mengapa Pemindaian Teks Standar Gagal pada Spreadsheet

Alat analisis teks dibuat untuk dokumen. Mereka rusak pada spreadsheet dengan beberapa cara umum.

Masalah SSN-sebagai-Angka

Excel menyimpan Social Security Number tanpa tanda hubung (123456789) sebagai angka biasa — bukan teks. Pemindai yang mencari pola ###-##-#### akan melewatkannya. Alat yang baik harus tahu bahwa angka 9 digit di kolom bernama "SSN" adalah Social Security Number.

Masalah Tanggal-sebagai-Angka

Excel menyimpan tanggal sebagai angka serial. 6 Februari 2024 disimpan sebagai 45329. Ekspor CSV akan menampilkan "45329" di kolom "Date of Birth". Pemindai harus mengonversi angka itu ke tanggal nyata sebelum bisa menandainya.

Masalah SSN Parsial

Beberapa sistem hanya menampilkan empat digit terakhir SSN (*--1234). Nomor lengkapnya ada di kolom yang terkunci. Nilai parsial tetap harus dianonimkan — meski tidak terlihat seperti SSN penuh.

Masalah PII Formula

Beberapa sel membangun PII dari sel lain. Sel dengan =CONCATENATE(B2," ",C2) menampilkan nama lengkap. Jika Anda menghapus kolom B dan C, nama lengkap itu masih terlihat di sel formula. Alat yang hanya membaca nilai tersimpan — bukan tautan formula — akan membiarkan PII di tempatnya.

Masalah Multi-Sheet

Workbook besar mungkin memiliki lima sheet: Customer List, Orders, Support Tickets, Billing, dan Analytics. Nama pelanggan muncul di kelimanya. "John Smith" di satu sheet harus menjadi token yang sama — "PERSON_0047" — di setiap sheet lainnya. Dua token berbeda memutus tautan catatan.

Header Kolom sebagai Sinyal

Peningkatan terbaik dalam deteksi PII spreadsheet adalah analisis header kolom.

Kolom bernama "SSN" memberi tahu alat bahwa semua nilai di kolom itu adalah Social Security Number. Ini berlaku bahkan jika nilainya parsial, berformat aneh, atau disimpan sebagai angka.

Header kolomApa yang disinyalkannya
SSN / Social Security / Tax IDPerlakukan angka 9 digit sebagai SSN
Email / E-mail / Email AddressTandai bahkan pola email parsial
Phone / Telephone / Mobile / CellTerima format telepon apa pun
DOB / Date of Birth / BirthdayKonversi angka serial ke tanggal
First Name / Last Name / Full NameTurunkan ambang untuk deteksi nama
Address / Street / City / ZIPGabungkan kolom lokasi yang berdekatan
Patient ID / MRN / Record NumberTerapkan pola ID layanan kesehatan

Konteks kolom tidak menggantikan pemindaian konten. Ini menambahkannya. Kolom bernama "SSN" dengan 100 nilai: pemindaian konten menangkap 99 yang berformat baik. Konteks kolom menangkap satu yang tampak aneh.

Pertahankan Strukturnya, Hapus Nama-namanya

Tujuan dalam sebagian besar kasus GDPR Excel bukanlah menghancurkan file. Melainkan menghapus data pribadi sambil mempertahankan bagian yang membuat file tetap berguna.

Untuk file catatan staf 15.000 baris, petugas kepatuhan membutuhkan:

Hapus:

  • Nama karyawan → token PERSON_XXXX
  • SSN → REDACTED
  • Alamat email → REDACTED
  • Nomor telepon → REDACTED
  • Alamat rumah → REDACTED

Pertahankan:

  • Kode departemen
  • Jabatan (hanya peran umum)
  • Kisaran gaji (kategori luas)
  • Skor kinerja (data kelompok)
  • Tanggal mulai (untuk statistik masa kerja)
  • Kode manajer (jika dipseudonymkan)

Alat yang mengetahui perbedaan antara "data yang menyebutkan orang" dan "data yang mendeskripsikan pekerjaan" memberi Anda file yang tetap berguna untuk analisis SDM — dan memenuhi aturan minimisasi data GDPR.

Kasus Nyata: Transfer Data SDM M&A

Perusahaan pengakuisisi mendapatkan catatan staf dari perusahaan target: XLSX 15.000 baris dengan 40 kolom. File tersebut harus dikirim ke firma SDM eksternal untuk perencanaan tunjangan. GDPR menyatakan hanya data yang diperlukan untuk tugas itu yang bisa dibagikan.

Sebelum pemrosesan: 40 kolom dengan nama lengkap, SSN, email, alamat rumah, kontak darurat, dan detail bank.

Setelah pemrosesan berbasis konteks kolom:

  • 12 kolom langsung mengidentifikasi orang (nama, SSN, email, telepon, alamat, data bank): digantikan dengan token konsisten
  • 3 kolom secara tidak langsung mengidentifikasi orang (ID staf, kode manajer, kode jabatan): digantikan dengan token pseudonim yang cocok dalam file
  • 25 kolom adalah data agregat (kisaran gaji, departemen, masa kerja, peringkat): dibiarkan tidak berubah

Waktu: 8 menit untuk 600.000 sel

Output: Tata letak XLSX yang sama, 40 kolom, 15 dianonimkan, 25 tidak berubah

Log audit: Catatan tingkat sel dari setiap tindakan dengan jenis entitas, skor kepercayaan, dan sinyal kolom yang digunakan

Firma SDM mendapatkan dataset lengkap untuk pekerjaannya — tanpa nama atau ID. Catatan kepatuhan mendapat bukti bahwa hanya data yang tepat yang dibagikan.

Tantangan ini tidak unik untuk Excel. Setiap format file gagal dengan caranya sendiri. Lihat bagaimana fragmentasi format memengaruhi deteksi PII untuk tinjauan lintas jenis file.

Tiga Aturan GDPR Pasal 5, Satu Proses

Anonimisasi spreadsheet terstruktur memenuhi tiga aturan sekaligus.

Minimisasi data (Ps. 5(1)(c)): Hanya kolom yang diperlukan untuk tugas yang dikirim ke penerima. Kolom pengidentifikasi dihapus.

Pembatasan penyimpanan (Ps. 5(1)(e)): File asli tetap ada untuk retensi hukum. Salinan bersih dibuat untuk berbagi — dengan kebutuhan retensi yang lebih pendek atau tanpa kebutuhan retensi.

Integritas dan kerahasiaan (Ps. 5(1)(f)): Tidak ada data pengidentifikasi yang meninggalkan zona kontrol. Hanya salinan bersih yang dibagikan.

Log audit dari proses ini juga merupakan bukti Pasal 5(2) Anda. Ini menunjukkan bagaimana setiap aturan dipenuhi untuk setiap file.

Jika tim Anda menangani DSAR atau ekspor data besar, logika yang sama berlaku di tingkat API. Lihat bagaimana minimisasi data GDPR bekerja di API real-time.

Bagi tim yang menangani volume tinggi dengan tenggat waktu ketat, lihat pemrosesan batch GDPR DSAR pada skala besar untuk pola alur kerja yang juga berlaku di sini.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.