Jurang yang Pemadaman Lajur Lepaskan

Dikemas kini untuk 2026

Set data penyelidikan bergerak antara universiti sebagai fail CSV. Apabila pasukan menyediakan CSV untuk perkongsian, kerja itu berasaskan lajur. Cari maklumat peribadi. Padamkan atau gantikannya.

Kaedah itu berfungsi untuk medan tetap. Lajur yang dinamakan "email" memegang alamat e-mel — padamkannya. Lajur yang dinamakan "phone" memegang nombor telefon — padamkannya. Lajur yang dinamakan "participant_name" memegang nama — tukarkan dengan kod.

Tetapi lajur respons teks bebas adalah titik buta. Membuang lajur berlabel tidak menyentuhnya.

Tinjauan dengan 5,000 baris mungkin mempunyai lima lajur PII berstruktur dan lima belas lajur respons teks terbuka. Lajur berstruktur memegang nama, e-mel, nombor telefon, ID, dan tahun lahir. Lajur teks terbuka memegang ulasan, nota, dan cadangan.

Lajur berstruktur dibersihkan. Lajur teks terbuka kekal mentah. Tetapi orang menulis perkara seperti tiga contoh ini.

Pertama: "Doktor saya di Boston Medical Center, Dr. Maria Santos, berkata rawatan itu baharu." Kedua: "Saya telah menangani ini sejak kemalangan 2019 saya." Ketiga: "Anda boleh menghubungi pengasuh saya di margaret.wells@gmail.com untuk butiran."

Setiap entri menamakan orang sebenar. Sesetengah termasuk fakta kesihatan atau maklumat hubungan. Tiada satu pun yang muncul dalam pengepala lajur. Tiada satu pun yang ditangkap oleh pemadaman lajur.

Recital 26 GDPR mentakrifkan rekod tanpa nama sebagai rekod yang tidak dapat dikaitkan dengan mana-mana orang. Barnya tinggi. Rekod hanya benar-benar tanpa nama apabila pengecaman semula tidak munasabah mungkin.

CSV dengan lajur tetap yang bersih tetapi orang yang dinamakan dalam teks terbuka tidak melepasi ujian itu. Nama-nama itu boleh dikenal pasti. Set data masih peribadi. Peraturan Perkara 89 GDPR masih terpakai. Jadi tiga risiko ini muncul.

Pengecualian penyelidikan Perkara 89: Perkara 89 membenarkan penyelidik memproses maklumat peribadi untuk sains dengan lebih sedikit kewajipan. Tetapi hanya di mana "perlindungan yang sesuai" wujud. Berkongsi fail dengan PII teks terbuka sambil mendakwa perlindungan Perkara 89 adalah kegagalan undang-undang.

Kelulusan etika: Kebanyakan IRB dan lembaga etika memerlukan anonimisasi penuh untuk set data yang dikongsi. Kerja separa — lajur tetap dibersihkan, teks terbuka dibiarkan mentah — biasanya gagal. Lembaga boleh menolak penyerahan.

Perjanjian perkongsian data: DSA antara institusi menetapkan tahap anonimisasi yang diperlukan. Kerja separa yang gagal Recital 26 GDPR mungkin melanggar DSA. Lihat gambaran keseluruhan Pematuhan Undang-Undang kami untuk bagaimana ini sesuai dalam program yang lebih luas.

Mengapa Teks Terbuka Sangat Sukar Dibersihkan

Jawapan tinjauan teks bebas adalah antara sasaran PII yang paling sukar. Berikut sebabnya.

Nama dalam konteks: "Dr. Maria Santos di Boston Medical Center" memerlukan pengecaman entiti bernama (NER) untuk menanda seseorang dan sebuah organisasi. Senarai kata kunci tidak boleh menemui ini.

Nama dalam cerita: "Kereta John Henderson melanggar kereta saya" meletakkan nama sebenar dalam sebuah cerita. Ia adalah seseorang yang dinamakan sambil lalu. Hanya NER yang menangkapnya.

Format tidak standard: Maklumat hubungan mungkin dibaca "hubungi saya di margaret titik wells di gmail." Alat regex mudah terlepas ini.

Istilah khusus penyelidikan: Tinjauan klinikal sering mengandungi ID hospital, kod tapak, dan nama tempat. Ini boleh mengenal pasti seseorang walaupun kelihatan generik.

Jadi padanan corak sahaja tidak mencukupi. Alat berasaskan NLP diperlukan untuk anonimisasi tinjauan sebenar. Lihat Keselamatan & Pematuhan untuk pilihan teknikal.

Contoh Sebenar daripada Tiga Universiti

Pasukan penyelidikan di tiga universiti Eropah menjalankan tinjauan pengalaman pesakit. Set data mempunyai 5,000 responden, 3 lajur PII tetap, dan 8 lajur teks terbuka. Rancangan itu untuk berkongsi fail merentasi tapak di bawah DSA dan Perkara 89 GDPR.

Dengan pemadaman lajur sahaja:

Lajur PII tetap: dibuang
Lajur teks terbuka: dibiarkan mentah
Dakwaan: "Lajur PII dipadamkan"
PII yang ditinggalkan: 47 orang yang dinamakan, 23 alamat e-mel dalam ulasan, 18 nama tempat yang boleh mengenal pasti responden

Dengan pengesanan berasaskan NLP:

Lajur PII tetap: digantikan dengan token yang konsisten
Lajur teks terbuka: 47 nama digantikan, 23 e-mel ditopeng, 18 nama tempat dijadikan generik ("Boston Medical Center" → "[Institusi Penjagaan Kesihatan]")
Keputusan: fail yang melepasi Recital 26 GDPR
Lembaga etika meluluskan kaedah itu
DPO mengesahkan pematuhan DSA

Jurang itu adalah sebenar. Output pertama kelihatan bersih. Output kedua adalah bersih.

Protokol Lima Langkah Pra-Perkongsian

Gunakan langkah-langkah ini sebelum berkongsi sebarang fail tinjauan atau temu duga.

Langkah 1: Label setiap lajur Tandakan setiap lajur sebagai PII tetap, bukan PII tetap, atau teks terbuka. Tuliskannya.

Langkah 2: Tangani PII tetap Padamkan entri yang tidak diperlukan untuk analisis. Gantikan entri yang diperlukan untuk menghubungkan rekod. Rekodkan kod yang digunakan.

Langkah 3: Imbas lajur teks terbuka Jalankan pengesanan NLP pada semua lajur teks terbuka. Semak setiap keputusan. Sahkan mana yang adalah PII sebenar.

Langkah 4: Gunakan penggantian Gantikan PII yang disahkan dalam output teks terbuka. Gunakan label yang jelas seperti [PERSON], [EMAIL], atau [LOCATION].

Langkah 5: Sahkan dan dokumentasikan Sampel 50–100 baris dari output. Semak entri teks terbuka secara manual. Tulis ringkasan pendek: alat yang digunakan, jenis entiti yang dijumpai, lajur yang diproses. Kongsi bersama fail untuk semakan etika.

Ini menukar "kami memadam lajur nama" kepada proses yang jelas dan didokumentasikan. Ia memenuhi Perkara 89 GDPR dan piawaian anonimisasi yang kebanyakan lembaga etika perlukan. Lawati hab dokumentasi kami untuk panduan berkaitan.

Sumber

Perkara 89 GDPR: Perlindungan untuk Penyelidikan Saintifik — VERIFIED-EXTERNAL
Recital 26 GDPR: Prinsip Anonimisasi — VERIFIED-EXTERNAL
ICO: Anonimisasi dan Risiko Perlindungan Data — VERIFIED-EXTERNAL

Artikel Berkaitan

GDPR & Pematuhan

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

PII Teks Bebas CSV: Melampaui Pemadaman Lajur

Jurang yang Pemadaman Lajur Lepaskan

Mengapa Teks Terbuka Sangat Sukar Dibersihkan

Contoh Sebenar daripada Tiga Universiti

Protokol Lima Langkah Pra-Perkongsian

Sumber

Artikel Berkaitan

PII Hos Sendiri Gagal Audit Pematuhan

Presidio Terlepas 220+ Entiti GDPR

Hanyutan Konfigurasi: Risiko GDPR yang Tersembunyi

Sedia untuk melindungi data anda?

PII Teks Bebas CSV: Melampaui Pemadaman Lajur

Jurang yang Pemadaman Lajur Lepaskan

Mengapa Ini Gagal Piawaian GDPR

Mengapa Teks Terbuka Sangat Sukar Dibersihkan

Contoh Sebenar daripada Tiga Universiti

Protokol Lima Langkah Pra-Perkongsian

Sumber

Artikel Berkaitan

PII Hos Sendiri Gagal Audit Pematuhan

Presidio Terlepas 220+ Entiti GDPR

Hanyutan Konfigurasi: Risiko GDPR yang Tersembunyi

Sedia untuk melindungi data anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow