Celah yang Dilewatkan Penghapusan Kolom
Diperbarui untuk 2026
Dataset penelitian berpindah antar universitas dalam format file CSV. Ketika tim mempersiapkan CSV untuk dibagikan, pekerjaannya berbasis kolom. Temukan informasi pribadi. Hapus atau gantikan.
Metode itu bekerja untuk kolom tetap. Kolom bernama "email" menyimpan alamat email — hapus. Kolom bernama "phone" menyimpan nomor telepon — hapus. Kolom bernama "participant_name" menyimpan nama — gantikan dengan kode.
Namun kolom respons teks bebas adalah titik buta. Menghapus kolom berlabel tidak menyentuhnya.
Survei dengan 5.000 baris mungkin memiliki lima kolom PII terstruktur dan lima belas kolom respons teks terbuka. Yang terstruktur menyimpan nama, email, nomor telepon, ID, dan tahun lahir. Yang teks terbuka menyimpan komentar, catatan, dan saran.
Kolom terstruktur dibersihkan. Kolom teks terbuka dibiarkan mentah. Namun orang menulis hal-hal seperti tiga contoh ini.
Pertama: "Dokter saya di Boston Medical Center, Dr. Maria Santos, mengatakan pengobatannya baru." Kedua: "Saya sudah menghadapi ini sejak kecelakaan saya tahun 2019." Ketiga: "Anda bisa menghubungi pengasuh saya di margaret.wells@gmail.com untuk detailnya."
Setiap entri menyebutkan orang nyata. Beberapa mencakup fakta kesehatan atau informasi kontak. Tidak satu pun dari ini muncul di header kolom. Tidak satu pun tertangkap oleh penghapusan kolom.
Mengapa Ini Gagal Memenuhi Standar GDPR
GDPR Recital 26 mendefinisikan catatan anonim sebagai catatan yang tidak bisa dikaitkan dengan siapa pun. Standarnya tinggi. Catatan hanya benar-benar anonim ketika identifikasi ulang tidak mungkin secara wajar.
CSV dengan kolom tetap yang bersih tetapi menyebutkan orang nyata dalam teks terbuka tidak memenuhi uji itu. Nama-nama itu bisa diidentifikasi. Dataset masih bersifat personal. Aturan GDPR Pasal 89 tetap berlaku. Maka tiga risiko ini muncul.
Pengecualian penelitian Pasal 89: Pasal 89 memungkinkan peneliti memproses informasi pribadi untuk sains dengan lebih sedikit kewajiban. Tetapi hanya jika ada "perlindungan yang tepat." Berbagi file dengan PII teks terbuka sambil mengklaim perlindungan Pasal 89 adalah kegagalan hukum.
Persetujuan etika: Sebagian besar IRB dan dewan etika mengharuskan anonimisasi penuh untuk dataset yang dibagikan. Pekerjaan parsial — kolom tetap dibersihkan, teks terbuka dibiarkan mentah — biasanya gagal. Dewan bisa menolak pengajuan.
Perjanjian berbagi data: DSA antara institusi menetapkan tingkat anonimisasi yang disyaratkan. Pekerjaan parsial yang gagal memenuhi GDPR Recital 26 mungkin melanggar DSA. Lihat ikhtisar Kepatuhan Hukum kami untuk cara ini cocok dengan program yang lebih luas.
Mengapa Teks Terbuka Sangat Sulit Dibersihkan
Jawaban survei teks bebas adalah salah satu target PII yang paling sulit. Inilah alasannya.
Nama dalam konteks: "Dr. Maria Santos di Boston Medical Center" membutuhkan named entity recognition (NER) untuk menandai seseorang dan organisasi. Daftar kata kunci tidak bisa menemukan ini.
Nama dalam cerita: "Mobil John Henderson menabrak milikku" menempatkan nama nyata dalam sebuah cerita. Itu adalah seseorang yang disebutkan secara sepintas. Hanya NER yang bisa menangkapnya.
Format non-standar: Informasi kontak mungkin berbunyi "hubungi saya di margaret dot wells at gmail." Alat regex sederhana melewatkan ini.
Istilah spesifik penelitian: Survei klinis sering mengandung ID rumah sakit, kode lokasi, dan nama tempat. Ini bisa mengidentifikasi seseorang meski terlihat generik.
Jadi pencocokan pola saja tidak cukup. Alat berbasis NLP diperlukan untuk anonimisasi survei yang sesungguhnya. Lihat Keamanan & Kepatuhan untuk pilihan teknis.
Contoh Nyata dari Tiga Universitas
Tim penelitian di tiga universitas Eropa menjalankan survei pengalaman pasien. Dataset memiliki 5.000 responden, 3 kolom PII tetap, dan 8 kolom teks terbuka. Rencana mereka adalah berbagi file antar lokasi di bawah DSA dan GDPR Pasal 89.
Dengan penghapusan kolom saja:
- Kolom PII tetap: dihapus
- Kolom teks terbuka: dibiarkan mentah
- Klaim: "Kolom PII dihapus"
- PII yang tersisa: 47 orang yang disebutkan namanya, 23 alamat email dalam komentar, 18 nama tempat yang bisa mengidentifikasi responden
Dengan deteksi berbasis NLP:
- Kolom PII tetap: digantikan dengan token konsisten
- Kolom teks terbuka: 47 nama diganti, 23 email disamarkan, 18 nama tempat dibuat generik ("Boston Medical Center" → "[Institusi Layanan Kesehatan]")
- Hasil: file yang memenuhi GDPR Recital 26
- Dewan etika menyetujui metodenya
- DPO mengkonfirmasi kepatuhan DSA
Celahnya nyata. Output pertama tampak bersih. Output kedua benar-benar bersih.
Protokol Lima Langkah Sebelum Berbagi
Gunakan langkah-langkah ini sebelum berbagi file survei atau wawancara apa pun.
Langkah 1: Beri label setiap kolom Tandai setiap kolom sebagai PII tetap, non-PII tetap, atau teks terbuka. Catat.
Langkah 2: Tangani PII tetap Hapus entri yang tidak diperlukan untuk analisis. Gantikan entri yang diperlukan untuk menautkan catatan. Catat kode yang digunakan.
Langkah 3: Pindai kolom teks terbuka Jalankan deteksi NLP pada semua kolom teks terbuka. Tinjau setiap hasil. Konfirmasi mana yang benar-benar PII.
Langkah 4: Terapkan penggantian
Gantikan PII yang dikonfirmasi dalam output teks terbuka. Gunakan label yang jelas seperti [PERSON], [EMAIL], atau [LOCATION].
Langkah 5: Verifikasi dan dokumentasikan Ambil sampel 50–100 baris dari output. Periksa entri teks terbuka secara manual. Tulis ringkasan singkat: alat yang digunakan, jenis entitas yang ditemukan, kolom yang diproses. Bagikan bersama file untuk tinjauan etika.
Ini mengubah "kami menghapus kolom nama" menjadi proses yang jelas dan terdokumentasi. Ini memenuhi GDPR Pasal 89 dan standar anonimisasi yang disyaratkan sebagian besar dewan etika. Kunjungi hub dokumentasi kami untuk panduan terkait.
Sumber
- GDPR Pasal 89: Perlindungan untuk Penelitian Ilmiah — VERIFIED-EXTERNAL
- GDPR Recital 26: Prinsip Anonimisasi — VERIFIED-EXTERNAL
- ICO: Anonimisasi dan Risiko Perlindungan Data — VERIFIED-EXTERNAL