Jurang yang Pemadaman Lajur Lepaskan
Dikemas kini untuk 2026
Set data penyelidikan bergerak antara universiti sebagai fail CSV. Apabila pasukan menyediakan CSV untuk perkongsian, kerja itu berasaskan lajur. Cari maklumat peribadi. Padamkan atau gantikannya.
Kaedah itu berfungsi untuk medan tetap. Lajur yang dinamakan "email" memegang alamat e-mel — padamkannya. Lajur yang dinamakan "phone" memegang nombor telefon — padamkannya. Lajur yang dinamakan "participant_name" memegang nama — tukarkan dengan kod.
Tetapi lajur respons teks bebas adalah titik buta. Membuang lajur berlabel tidak menyentuhnya.
Tinjauan dengan 5,000 baris mungkin mempunyai lima lajur PII berstruktur dan lima belas lajur respons teks terbuka. Lajur berstruktur memegang nama, e-mel, nombor telefon, ID, dan tahun lahir. Lajur teks terbuka memegang ulasan, nota, dan cadangan.
Lajur berstruktur dibersihkan. Lajur teks terbuka kekal mentah. Tetapi orang menulis perkara seperti tiga contoh ini.
Pertama: "Doktor saya di Boston Medical Center, Dr. Maria Santos, berkata rawatan itu baharu." Kedua: "Saya telah menangani ini sejak kemalangan 2019 saya." Ketiga: "Anda boleh menghubungi pengasuh saya di margaret.wells@gmail.com untuk butiran."
Setiap entri menamakan orang sebenar. Sesetengah termasuk fakta kesihatan atau maklumat hubungan. Tiada satu pun yang muncul dalam pengepala lajur. Tiada satu pun yang ditangkap oleh pemadaman lajur.
Mengapa Ini Gagal Piawaian GDPR
Recital 26 GDPR mentakrifkan rekod tanpa nama sebagai rekod yang tidak dapat dikaitkan dengan mana-mana orang. Barnya tinggi. Rekod hanya benar-benar tanpa nama apabila pengecaman semula tidak munasabah mungkin.
CSV dengan lajur tetap yang bersih tetapi orang yang dinamakan dalam teks terbuka tidak melepasi ujian itu. Nama-nama itu boleh dikenal pasti. Set data masih peribadi. Peraturan Perkara 89 GDPR masih terpakai. Jadi tiga risiko ini muncul.
Pengecualian penyelidikan Perkara 89: Perkara 89 membenarkan penyelidik memproses maklumat peribadi untuk sains dengan lebih sedikit kewajipan. Tetapi hanya di mana "perlindungan yang sesuai" wujud. Berkongsi fail dengan PII teks terbuka sambil mendakwa perlindungan Perkara 89 adalah kegagalan undang-undang.
Kelulusan etika: Kebanyakan IRB dan lembaga etika memerlukan anonimisasi penuh untuk set data yang dikongsi. Kerja separa — lajur tetap dibersihkan, teks terbuka dibiarkan mentah — biasanya gagal. Lembaga boleh menolak penyerahan.
Perjanjian perkongsian data: DSA antara institusi menetapkan tahap anonimisasi yang diperlukan. Kerja separa yang gagal Recital 26 GDPR mungkin melanggar DSA. Lihat gambaran keseluruhan Pematuhan Undang-Undang kami untuk bagaimana ini sesuai dalam program yang lebih luas.
Mengapa Teks Terbuka Sangat Sukar Dibersihkan
Jawapan tinjauan teks bebas adalah antara sasaran PII yang paling sukar. Berikut sebabnya.
Nama dalam konteks: "Dr. Maria Santos di Boston Medical Center" memerlukan pengecaman entiti bernama (NER) untuk menanda seseorang dan sebuah organisasi. Senarai kata kunci tidak boleh menemui ini.
Nama dalam cerita: "Kereta John Henderson melanggar kereta saya" meletakkan nama sebenar dalam sebuah cerita. Ia adalah seseorang yang dinamakan sambil lalu. Hanya NER yang menangkapnya.
Format tidak standard: Maklumat hubungan mungkin dibaca "hubungi saya di margaret titik wells di gmail." Alat regex mudah terlepas ini.
Istilah khusus penyelidikan: Tinjauan klinikal sering mengandungi ID hospital, kod tapak, dan nama tempat. Ini boleh mengenal pasti seseorang walaupun kelihatan generik.
Jadi padanan corak sahaja tidak mencukupi. Alat berasaskan NLP diperlukan untuk anonimisasi tinjauan sebenar. Lihat Keselamatan & Pematuhan untuk pilihan teknikal.
Contoh Sebenar daripada Tiga Universiti
Pasukan penyelidikan di tiga universiti Eropah menjalankan tinjauan pengalaman pesakit. Set data mempunyai 5,000 responden, 3 lajur PII tetap, dan 8 lajur teks terbuka. Rancangan itu untuk berkongsi fail merentasi tapak di bawah DSA dan Perkara 89 GDPR.
Dengan pemadaman lajur sahaja:
- Lajur PII tetap: dibuang
- Lajur teks terbuka: dibiarkan mentah
- Dakwaan: "Lajur PII dipadamkan"
- PII yang ditinggalkan: 47 orang yang dinamakan, 23 alamat e-mel dalam ulasan, 18 nama tempat yang boleh mengenal pasti responden
Dengan pengesanan berasaskan NLP:
- Lajur PII tetap: digantikan dengan token yang konsisten
- Lajur teks terbuka: 47 nama digantikan, 23 e-mel ditopeng, 18 nama tempat dijadikan generik ("Boston Medical Center" → "[Institusi Penjagaan Kesihatan]")
- Keputusan: fail yang melepasi Recital 26 GDPR
- Lembaga etika meluluskan kaedah itu
- DPO mengesahkan pematuhan DSA
Jurang itu adalah sebenar. Output pertama kelihatan bersih. Output kedua adalah bersih.
Protokol Lima Langkah Pra-Perkongsian
Gunakan langkah-langkah ini sebelum berkongsi sebarang fail tinjauan atau temu duga.
Langkah 1: Label setiap lajur Tandakan setiap lajur sebagai PII tetap, bukan PII tetap, atau teks terbuka. Tuliskannya.
Langkah 2: Tangani PII tetap Padamkan entri yang tidak diperlukan untuk analisis. Gantikan entri yang diperlukan untuk menghubungkan rekod. Rekodkan kod yang digunakan.
Langkah 3: Imbas lajur teks terbuka Jalankan pengesanan NLP pada semua lajur teks terbuka. Semak setiap keputusan. Sahkan mana yang adalah PII sebenar.
Langkah 4: Gunakan penggantian
Gantikan PII yang disahkan dalam output teks terbuka. Gunakan label yang jelas seperti [PERSON], [EMAIL], atau [LOCATION].
Langkah 5: Sahkan dan dokumentasikan Sampel 50–100 baris dari output. Semak entri teks terbuka secara manual. Tulis ringkasan pendek: alat yang digunakan, jenis entiti yang dijumpai, lajur yang diproses. Kongsi bersama fail untuk semakan etika.
Ini menukar "kami memadam lajur nama" kepada proses yang jelas dan didokumentasikan. Ia memenuhi Perkara 89 GDPR dan piawaian anonimisasi yang kebanyakan lembaga etika perlukan. Lawati hab dokumentasi kami untuk panduan berkaitan.
Sumber
- Perkara 89 GDPR: Perlindungan untuk Penyelidikan Saintifik — VERIFIED-EXTERNAL
- Recital 26 GDPR: Prinsip Anonimisasi — VERIFIED-EXTERNAL
- ICO: Anonimisasi dan Risiko Perlindungan Data — VERIFIED-EXTERNAL