Celah yang Dilewatkan Penghapusan Kolom

Diperbarui untuk 2026

Dataset penelitian berpindah antar universitas dalam format file CSV. Ketika tim mempersiapkan CSV untuk dibagikan, pekerjaannya berbasis kolom. Temukan informasi pribadi. Hapus atau gantikan.

Metode itu bekerja untuk kolom tetap. Kolom bernama "email" menyimpan alamat email — hapus. Kolom bernama "phone" menyimpan nomor telepon — hapus. Kolom bernama "participant_name" menyimpan nama — gantikan dengan kode.

Namun kolom respons teks bebas adalah titik buta. Menghapus kolom berlabel tidak menyentuhnya.

Survei dengan 5.000 baris mungkin memiliki lima kolom PII terstruktur dan lima belas kolom respons teks terbuka. Yang terstruktur menyimpan nama, email, nomor telepon, ID, dan tahun lahir. Yang teks terbuka menyimpan komentar, catatan, dan saran.

Kolom terstruktur dibersihkan. Kolom teks terbuka dibiarkan mentah. Namun orang menulis hal-hal seperti tiga contoh ini.

Pertama: "Dokter saya di Boston Medical Center, Dr. Maria Santos, mengatakan pengobatannya baru." Kedua: "Saya sudah menghadapi ini sejak kecelakaan saya tahun 2019." Ketiga: "Anda bisa menghubungi pengasuh saya di margaret.wells@gmail.com untuk detailnya."

Setiap entri menyebutkan orang nyata. Beberapa mencakup fakta kesehatan atau informasi kontak. Tidak satu pun dari ini muncul di header kolom. Tidak satu pun tertangkap oleh penghapusan kolom.

GDPR Recital 26 mendefinisikan catatan anonim sebagai catatan yang tidak bisa dikaitkan dengan siapa pun. Standarnya tinggi. Catatan hanya benar-benar anonim ketika identifikasi ulang tidak mungkin secara wajar.

CSV dengan kolom tetap yang bersih tetapi menyebutkan orang nyata dalam teks terbuka tidak memenuhi uji itu. Nama-nama itu bisa diidentifikasi. Dataset masih bersifat personal. Aturan GDPR Pasal 89 tetap berlaku. Maka tiga risiko ini muncul.

Pengecualian penelitian Pasal 89: Pasal 89 memungkinkan peneliti memproses informasi pribadi untuk sains dengan lebih sedikit kewajiban. Tetapi hanya jika ada "perlindungan yang tepat." Berbagi file dengan PII teks terbuka sambil mengklaim perlindungan Pasal 89 adalah kegagalan hukum.

Persetujuan etika: Sebagian besar IRB dan dewan etika mengharuskan anonimisasi penuh untuk dataset yang dibagikan. Pekerjaan parsial — kolom tetap dibersihkan, teks terbuka dibiarkan mentah — biasanya gagal. Dewan bisa menolak pengajuan.

Perjanjian berbagi data: DSA antara institusi menetapkan tingkat anonimisasi yang disyaratkan. Pekerjaan parsial yang gagal memenuhi GDPR Recital 26 mungkin melanggar DSA. Lihat ikhtisar Kepatuhan Hukum kami untuk cara ini cocok dengan program yang lebih luas.

Mengapa Teks Terbuka Sangat Sulit Dibersihkan

Jawaban survei teks bebas adalah salah satu target PII yang paling sulit. Inilah alasannya.

Nama dalam konteks: "Dr. Maria Santos di Boston Medical Center" membutuhkan named entity recognition (NER) untuk menandai seseorang dan organisasi. Daftar kata kunci tidak bisa menemukan ini.

Nama dalam cerita: "Mobil John Henderson menabrak milikku" menempatkan nama nyata dalam sebuah cerita. Itu adalah seseorang yang disebutkan secara sepintas. Hanya NER yang bisa menangkapnya.

Format non-standar: Informasi kontak mungkin berbunyi "hubungi saya di margaret dot wells at gmail." Alat regex sederhana melewatkan ini.

Istilah spesifik penelitian: Survei klinis sering mengandung ID rumah sakit, kode lokasi, dan nama tempat. Ini bisa mengidentifikasi seseorang meski terlihat generik.

Jadi pencocokan pola saja tidak cukup. Alat berbasis NLP diperlukan untuk anonimisasi survei yang sesungguhnya. Lihat Keamanan & Kepatuhan untuk pilihan teknis.

Contoh Nyata dari Tiga Universitas

Tim penelitian di tiga universitas Eropa menjalankan survei pengalaman pasien. Dataset memiliki 5.000 responden, 3 kolom PII tetap, dan 8 kolom teks terbuka. Rencana mereka adalah berbagi file antar lokasi di bawah DSA dan GDPR Pasal 89.

Dengan penghapusan kolom saja:

Kolom PII tetap: dihapus
Kolom teks terbuka: dibiarkan mentah
Klaim: "Kolom PII dihapus"
PII yang tersisa: 47 orang yang disebutkan namanya, 23 alamat email dalam komentar, 18 nama tempat yang bisa mengidentifikasi responden

Dengan deteksi berbasis NLP:

Kolom PII tetap: digantikan dengan token konsisten
Kolom teks terbuka: 47 nama diganti, 23 email disamarkan, 18 nama tempat dibuat generik ("Boston Medical Center" → "[Institusi Layanan Kesehatan]")
Hasil: file yang memenuhi GDPR Recital 26
Dewan etika menyetujui metodenya
DPO mengkonfirmasi kepatuhan DSA

Celahnya nyata. Output pertama tampak bersih. Output kedua benar-benar bersih.

Protokol Lima Langkah Sebelum Berbagi

Gunakan langkah-langkah ini sebelum berbagi file survei atau wawancara apa pun.

Langkah 1: Beri label setiap kolom Tandai setiap kolom sebagai PII tetap, non-PII tetap, atau teks terbuka. Catat.

Langkah 2: Tangani PII tetap Hapus entri yang tidak diperlukan untuk analisis. Gantikan entri yang diperlukan untuk menautkan catatan. Catat kode yang digunakan.

Langkah 3: Pindai kolom teks terbuka Jalankan deteksi NLP pada semua kolom teks terbuka. Tinjau setiap hasil. Konfirmasi mana yang benar-benar PII.

Langkah 4: Terapkan penggantian Gantikan PII yang dikonfirmasi dalam output teks terbuka. Gunakan label yang jelas seperti [PERSON], [EMAIL], atau [LOCATION].

Langkah 5: Verifikasi dan dokumentasikan Ambil sampel 50–100 baris dari output. Periksa entri teks terbuka secara manual. Tulis ringkasan singkat: alat yang digunakan, jenis entitas yang ditemukan, kolom yang diproses. Bagikan bersama file untuk tinjauan etika.

Ini mengubah "kami menghapus kolom nama" menjadi proses yang jelas dan terdokumentasi. Ini memenuhi GDPR Pasal 89 dan standar anonimisasi yang disyaratkan sebagian besar dewan etika. Kunjungi hub dokumentasi kami untuk panduan terkait.

Sumber

GDPR Pasal 89: Perlindungan untuk Penelitian Ilmiah — VERIFIED-EXTERNAL
GDPR Recital 26: Prinsip Anonimisasi — VERIFIED-EXTERNAL
ICO: Anonimisasi dan Risiko Perlindungan Data — VERIFIED-EXTERNAL

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

Mulai Uji Coba Gratis Lihat Fitur

PII Teks Bebas CSV: Melampaui Penghapusan Kolom

Celah yang Dilewatkan Penghapusan Kolom

Mengapa Teks Terbuka Sangat Sulit Dibersihkan

Contoh Nyata dari Tiga Universitas

Protokol Lima Langkah Sebelum Berbagi

Sumber

Artikel Terkait

PII Self-Hosted Gagal Audit Kepatuhan

Presidio Melewatkan 220+ Entitas GDPR

Pergeseran Konfigurasi: Risiko GDPR yang Tersembunyi

Siap untuk melindungi data Anda?

PII Teks Bebas CSV: Melampaui Penghapusan Kolom

Celah yang Dilewatkan Penghapusan Kolom

Mengapa Ini Gagal Memenuhi Standar GDPR

Mengapa Teks Terbuka Sangat Sulit Dibersihkan

Contoh Nyata dari Tiga Universitas

Protokol Lima Langkah Sebelum Berbagi

Sumber

Artikel Terkait

PII Self-Hosted Gagal Audit Kepatuhan

Presidio Melewatkan 220+ Entitas GDPR

Pergeseran Konfigurasi: Risiko GDPR yang Tersembunyi

Siap untuk melindungi data Anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow