By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

PII Teks Bebas CSV: Melampaui Penghapusan Kolom

CSV survei mengandung PII tidak hanya di kolom terstruktur tetapi juga dalam respons teks bebas. Penghapusan kolom standar melewatkan PII yang melanggar standar anonimisasi GDPR.

June 5, 20267 menit baca
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Celah yang Dilewatkan Penghapusan Kolom

Diperbarui untuk 2026

Dataset penelitian berpindah antar universitas dalam format file CSV. Ketika tim mempersiapkan CSV untuk dibagikan, pekerjaannya berbasis kolom. Temukan informasi pribadi. Hapus atau gantikan.

Metode itu bekerja untuk kolom tetap. Kolom bernama "email" menyimpan alamat email — hapus. Kolom bernama "phone" menyimpan nomor telepon — hapus. Kolom bernama "participant_name" menyimpan nama — gantikan dengan kode.

Namun kolom respons teks bebas adalah titik buta. Menghapus kolom berlabel tidak menyentuhnya.

Survei dengan 5.000 baris mungkin memiliki lima kolom PII terstruktur dan lima belas kolom respons teks terbuka. Yang terstruktur menyimpan nama, email, nomor telepon, ID, dan tahun lahir. Yang teks terbuka menyimpan komentar, catatan, dan saran.

Kolom terstruktur dibersihkan. Kolom teks terbuka dibiarkan mentah. Namun orang menulis hal-hal seperti tiga contoh ini.

Pertama: "Dokter saya di Boston Medical Center, Dr. Maria Santos, mengatakan pengobatannya baru." Kedua: "Saya sudah menghadapi ini sejak kecelakaan saya tahun 2019." Ketiga: "Anda bisa menghubungi pengasuh saya di margaret.wells@gmail.com untuk detailnya."

Setiap entri menyebutkan orang nyata. Beberapa mencakup fakta kesehatan atau informasi kontak. Tidak satu pun dari ini muncul di header kolom. Tidak satu pun tertangkap oleh penghapusan kolom.

Mengapa Ini Gagal Memenuhi Standar GDPR

GDPR Recital 26 mendefinisikan catatan anonim sebagai catatan yang tidak bisa dikaitkan dengan siapa pun. Standarnya tinggi. Catatan hanya benar-benar anonim ketika identifikasi ulang tidak mungkin secara wajar.

CSV dengan kolom tetap yang bersih tetapi menyebutkan orang nyata dalam teks terbuka tidak memenuhi uji itu. Nama-nama itu bisa diidentifikasi. Dataset masih bersifat personal. Aturan GDPR Pasal 89 tetap berlaku. Maka tiga risiko ini muncul.

Pengecualian penelitian Pasal 89: Pasal 89 memungkinkan peneliti memproses informasi pribadi untuk sains dengan lebih sedikit kewajiban. Tetapi hanya jika ada "perlindungan yang tepat." Berbagi file dengan PII teks terbuka sambil mengklaim perlindungan Pasal 89 adalah kegagalan hukum.

Persetujuan etika: Sebagian besar IRB dan dewan etika mengharuskan anonimisasi penuh untuk dataset yang dibagikan. Pekerjaan parsial — kolom tetap dibersihkan, teks terbuka dibiarkan mentah — biasanya gagal. Dewan bisa menolak pengajuan.

Perjanjian berbagi data: DSA antara institusi menetapkan tingkat anonimisasi yang disyaratkan. Pekerjaan parsial yang gagal memenuhi GDPR Recital 26 mungkin melanggar DSA. Lihat ikhtisar Kepatuhan Hukum kami untuk cara ini cocok dengan program yang lebih luas.

Mengapa Teks Terbuka Sangat Sulit Dibersihkan

Jawaban survei teks bebas adalah salah satu target PII yang paling sulit. Inilah alasannya.

Nama dalam konteks: "Dr. Maria Santos di Boston Medical Center" membutuhkan named entity recognition (NER) untuk menandai seseorang dan organisasi. Daftar kata kunci tidak bisa menemukan ini.

Nama dalam cerita: "Mobil John Henderson menabrak milikku" menempatkan nama nyata dalam sebuah cerita. Itu adalah seseorang yang disebutkan secara sepintas. Hanya NER yang bisa menangkapnya.

Format non-standar: Informasi kontak mungkin berbunyi "hubungi saya di margaret dot wells at gmail." Alat regex sederhana melewatkan ini.

Istilah spesifik penelitian: Survei klinis sering mengandung ID rumah sakit, kode lokasi, dan nama tempat. Ini bisa mengidentifikasi seseorang meski terlihat generik.

Jadi pencocokan pola saja tidak cukup. Alat berbasis NLP diperlukan untuk anonimisasi survei yang sesungguhnya. Lihat Keamanan & Kepatuhan untuk pilihan teknis.

Contoh Nyata dari Tiga Universitas

Tim penelitian di tiga universitas Eropa menjalankan survei pengalaman pasien. Dataset memiliki 5.000 responden, 3 kolom PII tetap, dan 8 kolom teks terbuka. Rencana mereka adalah berbagi file antar lokasi di bawah DSA dan GDPR Pasal 89.

Dengan penghapusan kolom saja:

  • Kolom PII tetap: dihapus
  • Kolom teks terbuka: dibiarkan mentah
  • Klaim: "Kolom PII dihapus"
  • PII yang tersisa: 47 orang yang disebutkan namanya, 23 alamat email dalam komentar, 18 nama tempat yang bisa mengidentifikasi responden

Dengan deteksi berbasis NLP:

  • Kolom PII tetap: digantikan dengan token konsisten
  • Kolom teks terbuka: 47 nama diganti, 23 email disamarkan, 18 nama tempat dibuat generik ("Boston Medical Center" → "[Institusi Layanan Kesehatan]")
  • Hasil: file yang memenuhi GDPR Recital 26
  • Dewan etika menyetujui metodenya
  • DPO mengkonfirmasi kepatuhan DSA

Celahnya nyata. Output pertama tampak bersih. Output kedua benar-benar bersih.

Protokol Lima Langkah Sebelum Berbagi

Gunakan langkah-langkah ini sebelum berbagi file survei atau wawancara apa pun.

Langkah 1: Beri label setiap kolom Tandai setiap kolom sebagai PII tetap, non-PII tetap, atau teks terbuka. Catat.

Langkah 2: Tangani PII tetap Hapus entri yang tidak diperlukan untuk analisis. Gantikan entri yang diperlukan untuk menautkan catatan. Catat kode yang digunakan.

Langkah 3: Pindai kolom teks terbuka Jalankan deteksi NLP pada semua kolom teks terbuka. Tinjau setiap hasil. Konfirmasi mana yang benar-benar PII.

Langkah 4: Terapkan penggantian Gantikan PII yang dikonfirmasi dalam output teks terbuka. Gunakan label yang jelas seperti [PERSON], [EMAIL], atau [LOCATION].

Langkah 5: Verifikasi dan dokumentasikan Ambil sampel 50–100 baris dari output. Periksa entri teks terbuka secara manual. Tulis ringkasan singkat: alat yang digunakan, jenis entitas yang ditemukan, kolom yang diproses. Bagikan bersama file untuk tinjauan etika.

Ini mengubah "kami menghapus kolom nama" menjadi proses yang jelas dan terdokumentasi. Ini memenuhi GDPR Pasal 89 dan standar anonimisasi yang disyaratkan sebagian besar dewan etika. Kunjungi hub dokumentasi kami untuk panduan terkait.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.