By · Last updated 2026-06-05

Kembali ke BlogGDPR & Pematuhan

PII Teks Bebas CSV: Melampaui Pemadaman Lajur

CSV tinjauan mengandungi PII bukan sahaja dalam lajur berstruktur tetapi dalam respons teks bebas. Pemadaman lajur standard terlepas PII yang melanggar piawaian GDPR Recital 26.

June 5, 20267 min baca
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Jurang yang Pemadaman Lajur Lepaskan

Dikemas kini untuk 2026

Set data penyelidikan bergerak antara universiti sebagai fail CSV. Apabila pasukan menyediakan CSV untuk perkongsian, kerja itu berasaskan lajur. Cari maklumat peribadi. Padamkan atau gantikannya.

Kaedah itu berfungsi untuk medan tetap. Lajur yang dinamakan "email" memegang alamat e-mel — padamkannya. Lajur yang dinamakan "phone" memegang nombor telefon — padamkannya. Lajur yang dinamakan "participant_name" memegang nama — tukarkan dengan kod.

Tetapi lajur respons teks bebas adalah titik buta. Membuang lajur berlabel tidak menyentuhnya.

Tinjauan dengan 5,000 baris mungkin mempunyai lima lajur PII berstruktur dan lima belas lajur respons teks terbuka. Lajur berstruktur memegang nama, e-mel, nombor telefon, ID, dan tahun lahir. Lajur teks terbuka memegang ulasan, nota, dan cadangan.

Lajur berstruktur dibersihkan. Lajur teks terbuka kekal mentah. Tetapi orang menulis perkara seperti tiga contoh ini.

Pertama: "Doktor saya di Boston Medical Center, Dr. Maria Santos, berkata rawatan itu baharu." Kedua: "Saya telah menangani ini sejak kemalangan 2019 saya." Ketiga: "Anda boleh menghubungi pengasuh saya di margaret.wells@gmail.com untuk butiran."

Setiap entri menamakan orang sebenar. Sesetengah termasuk fakta kesihatan atau maklumat hubungan. Tiada satu pun yang muncul dalam pengepala lajur. Tiada satu pun yang ditangkap oleh pemadaman lajur.

Mengapa Ini Gagal Piawaian GDPR

Recital 26 GDPR mentakrifkan rekod tanpa nama sebagai rekod yang tidak dapat dikaitkan dengan mana-mana orang. Barnya tinggi. Rekod hanya benar-benar tanpa nama apabila pengecaman semula tidak munasabah mungkin.

CSV dengan lajur tetap yang bersih tetapi orang yang dinamakan dalam teks terbuka tidak melepasi ujian itu. Nama-nama itu boleh dikenal pasti. Set data masih peribadi. Peraturan Perkara 89 GDPR masih terpakai. Jadi tiga risiko ini muncul.

Pengecualian penyelidikan Perkara 89: Perkara 89 membenarkan penyelidik memproses maklumat peribadi untuk sains dengan lebih sedikit kewajipan. Tetapi hanya di mana "perlindungan yang sesuai" wujud. Berkongsi fail dengan PII teks terbuka sambil mendakwa perlindungan Perkara 89 adalah kegagalan undang-undang.

Kelulusan etika: Kebanyakan IRB dan lembaga etika memerlukan anonimisasi penuh untuk set data yang dikongsi. Kerja separa — lajur tetap dibersihkan, teks terbuka dibiarkan mentah — biasanya gagal. Lembaga boleh menolak penyerahan.

Perjanjian perkongsian data: DSA antara institusi menetapkan tahap anonimisasi yang diperlukan. Kerja separa yang gagal Recital 26 GDPR mungkin melanggar DSA. Lihat gambaran keseluruhan Pematuhan Undang-Undang kami untuk bagaimana ini sesuai dalam program yang lebih luas.

Mengapa Teks Terbuka Sangat Sukar Dibersihkan

Jawapan tinjauan teks bebas adalah antara sasaran PII yang paling sukar. Berikut sebabnya.

Nama dalam konteks: "Dr. Maria Santos di Boston Medical Center" memerlukan pengecaman entiti bernama (NER) untuk menanda seseorang dan sebuah organisasi. Senarai kata kunci tidak boleh menemui ini.

Nama dalam cerita: "Kereta John Henderson melanggar kereta saya" meletakkan nama sebenar dalam sebuah cerita. Ia adalah seseorang yang dinamakan sambil lalu. Hanya NER yang menangkapnya.

Format tidak standard: Maklumat hubungan mungkin dibaca "hubungi saya di margaret titik wells di gmail." Alat regex mudah terlepas ini.

Istilah khusus penyelidikan: Tinjauan klinikal sering mengandungi ID hospital, kod tapak, dan nama tempat. Ini boleh mengenal pasti seseorang walaupun kelihatan generik.

Jadi padanan corak sahaja tidak mencukupi. Alat berasaskan NLP diperlukan untuk anonimisasi tinjauan sebenar. Lihat Keselamatan & Pematuhan untuk pilihan teknikal.

Contoh Sebenar daripada Tiga Universiti

Pasukan penyelidikan di tiga universiti Eropah menjalankan tinjauan pengalaman pesakit. Set data mempunyai 5,000 responden, 3 lajur PII tetap, dan 8 lajur teks terbuka. Rancangan itu untuk berkongsi fail merentasi tapak di bawah DSA dan Perkara 89 GDPR.

Dengan pemadaman lajur sahaja:

  • Lajur PII tetap: dibuang
  • Lajur teks terbuka: dibiarkan mentah
  • Dakwaan: "Lajur PII dipadamkan"
  • PII yang ditinggalkan: 47 orang yang dinamakan, 23 alamat e-mel dalam ulasan, 18 nama tempat yang boleh mengenal pasti responden

Dengan pengesanan berasaskan NLP:

  • Lajur PII tetap: digantikan dengan token yang konsisten
  • Lajur teks terbuka: 47 nama digantikan, 23 e-mel ditopeng, 18 nama tempat dijadikan generik ("Boston Medical Center" → "[Institusi Penjagaan Kesihatan]")
  • Keputusan: fail yang melepasi Recital 26 GDPR
  • Lembaga etika meluluskan kaedah itu
  • DPO mengesahkan pematuhan DSA

Jurang itu adalah sebenar. Output pertama kelihatan bersih. Output kedua adalah bersih.

Protokol Lima Langkah Pra-Perkongsian

Gunakan langkah-langkah ini sebelum berkongsi sebarang fail tinjauan atau temu duga.

Langkah 1: Label setiap lajur Tandakan setiap lajur sebagai PII tetap, bukan PII tetap, atau teks terbuka. Tuliskannya.

Langkah 2: Tangani PII tetap Padamkan entri yang tidak diperlukan untuk analisis. Gantikan entri yang diperlukan untuk menghubungkan rekod. Rekodkan kod yang digunakan.

Langkah 3: Imbas lajur teks terbuka Jalankan pengesanan NLP pada semua lajur teks terbuka. Semak setiap keputusan. Sahkan mana yang adalah PII sebenar.

Langkah 4: Gunakan penggantian Gantikan PII yang disahkan dalam output teks terbuka. Gunakan label yang jelas seperti [PERSON], [EMAIL], atau [LOCATION].

Langkah 5: Sahkan dan dokumentasikan Sampel 50–100 baris dari output. Semak entri teks terbuka secara manual. Tulis ringkasan pendek: alat yang digunakan, jenis entiti yang dijumpai, lajur yang diproses. Kongsi bersama fail untuk semakan etika.

Ini menukar "kami memadam lajur nama" kepada proses yang jelas dan didokumentasikan. Ia memenuhi Perkara 89 GDPR dan piawaian anonimisasi yang kebanyakan lembaga etika perlukan. Lawati hab dokumentasi kami untuk panduan berkaitan.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.