By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

CSV Free-Text PII: Higit pa sa Pagtanggal ng Column

Ang mga survey CSV ay naglalaman ng PII hindi lamang sa mga nakaayos na column kundi pati na rin sa mga free-text na sagot. Napalampas ng karaniwang pagtanggal ng column ang PII na lumalabag sa pamantayan ng GDPR.

June 5, 20267 min basahin
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Ang Agwat na Napalampas ng Pagtanggal ng Column

Na-update para sa 2026

Ang mga research dataset ay gumagalaw sa pagitan ng mga unibersidad bilang mga CSV file. Kapag naghahanda ang mga team ng CSV para sa pagbabahagi, ang trabaho ay batay sa column. Hanapin ang personal na impormasyon. Burahin o palitan ito.

Gumagana ang paraan para sa mga fixed na field. Ang isang column na pinangalanang "email" ay nagtatago ng mga email address - burahin ito. Ang isang column na pinangalanang "phone" ay nagtatago ng mga numero ng telepono - burahin ito. Ang isang column na pinangalanang "participant_name" ay nagtatago ng mga pangalan - palitan ito ng code.

Ngunit ang mga free-text na column ng sagot ay isang blind spot. Hindi nito natatanggal ang mga ito ang pagtanggal ng mga labeled na column.

Ang isang survey na may 5,000 row ay maaaring may limang nakaayos na PII column at labinlimang open-text na column ng sagot. Ang mga nakaayos na ito ay nagtatago ng mga pangalan, email, numero ng telepono, ID, at taon ng kapanganakan. Ang mga open-text na nagtatago ng mga komento, tala, at mungkahi.

Ninilinis ang mga nakaayos na column. Nananatiling raw ang mga open-text na column. Ngunit nagsusulat ang mga tao ng mga ganitong tatlong halimbawa.

Una: "Ang aking doktor sa Boston Medical Center, si Dr. Maria Santos, ay nagsabi na bago ang paggamot." Pangalawa: "Nakikitungo na ako dito mula pa noong aksidente ko noong 2019." Pangatlo: "Maaari kang makipag-ugnayan sa aking caregiver sa margaret.wells@gmail.com para sa mga detalye."

Bawat entry ay nagpapangalan ng tunay na tao. May kasama itong mga katotohanan sa kalusugan o impormasyon sa pakikipag-ugnayan. Wala sa mga ito ang lumalabas sa isang column header. Wala sa mga ito ang nahuhuli ng pagtanggal ng column.

Bakit Nabigo Ito sa Pamantayan ng GDPR

Ang GDPR Recital 26 ay nagtatakda ng mga anonymous na rekord bilang mga rekord na hindi maaaring maiugnay sa sinumang tao. Mataas ang bar. Ang mga rekord ay tunay na anonymous lamang kapag ang re-identification ay hindi makatwirang posible.

Ang isang CSV na may malinis na fixed na column ngunit may mga pangalan ng tao sa open-text ay hindi pumapasa sa pagsubok na iyon. Ang mga pangalang iyon ay matutukoy. Ang dataset ay personal pa rin. Nalalapat pa rin ang mga patakaran ng GDPR Article 89. Kaya tatlong panganib ang lumilitaw.

Exemption sa pananaliksik ng Article 89: Pinapayagan ng Article 89 ang mga mananaliksik na magproseso ng personal na impormasyon para sa agham na may mas kaunting tungkulin. Ngunit kung saan lamang may "angkop na pag-iingat". Ang pagbabahagi ng file na may open-text PII habang inaangkin ang saklaw ng Article 89 ay isang legal na kabiguan.

Pag-apruba ng etika: Karamihan sa mga IRB at ethics board ay nangangailangan ng buong anonymization para sa mga shared dataset. Ang partial na trabaho - nalinis ang mga fixed na column, naiwan ang open-text nang raw - ay karaniwang nabibigo. Maaaring tanggihan ng board ang submission.

Mga kasunduan sa pagbabahagi ng data: Ang mga DSA sa pagitan ng mga institusyon ay nagtatakda ng kinakailangang antas ng anonymization. Ang partial na trabaho na nabibigo sa GDPR Recital 26 ay maaaring lumabag sa DSA. Tingnan ang aming Legal Compliance overview para sa kung paano ito akma sa mas malawak na programa.

Bakit Napakahirap Linisin ang Open-Text

Ang mga free-text na sagot sa survey ay kabilang sa pinakamahirap na target ng PII. Narito kung bakit.

Mga pangalan sa konteksto: Ang "Dr. Maria Santos sa Boston Medical Center" ay nangangailangan ng named entity recognition (NER) para i-flag ang isang tao at isang organisasyon. Hindi mahanap ng mga listahan ng keyword ang ganito.

Mga pangalan sa mga kwento: Ang "Ang kotse ni John Henderson ay tumama sa akin" ay naglalagay ng tunay na pangalan sa loob ng isang kwento. Ito ay isang tao na napangalanan nang nagdaraan. Nahuhuli lamang ito ng NER.

Mga hindi karaniwang format: Ang impormasyon sa pakikipag-ugnayan ay maaaring mabasa bilang "makipag-ugnayan sa akin sa margaret dot wells at gmail." Napalampas ng mga simpleng regex tool ang mga ito.

Mga termino na tukoy sa pananaliksik: Ang mga clinical survey ay madalas na naglalaman ng mga hospital ID, site code, at mga pangalan ng lugar. Maaari nitong matukoy ang isang tao kahit na mukhang generic ang mga ito.

Kaya hindi sapat ang pattern matching lamang. Kailangan ng mga tool na batay sa NLP para sa tunay na survey anonymization. Tingnan ang Security & Compliance para sa mga teknikal na opsyon.

Isang Tunay na Halimbawa Mula sa Tatlong Unibersidad

Isang research team sa tatlong European na unibersidad ang nagsagawa ng survey sa karanasan ng pasyente. Ang dataset ay may 5,000 respondent, 3 fixed na PII column, at 8 open-text na column. Ang plano ay ibahagi ang file sa mga site sa ilalim ng DSA at GDPR Article 89.

Sa pagtanggal ng column lamang:

  • Mga fixed na PII column: tinanggal
  • Mga open-text na column: naiwan nang raw
  • Pahayag: "Tinanggal ang mga PII column"
  • PII na naiwan: 47 napaanganang tao, 23 email address sa mga komento, 18 pangalan ng lugar na maaaring makilala ang mga respondent

Sa NLP-based na detection:

  • Mga fixed na PII column: pinalitan ng mga konsistenteng token
  • Mga open-text na column: 47 pangalan ang pinalitan, 23 email ang naka-mask, 18 pangalan ng lugar ang ginawang generic ("Boston Medical Center" → "[Healthcare Institution]")
  • Resulta: isang file na pumapasa sa GDPR Recital 26
  • Naaprubahan ng ethics board ang paraan
  • Kinumpirma ng DPO ang DSA compliance

Tunay ang agwat. Mukhang malinis ang unang output. Malinis ang pangalawang output.

Isang Limang-Hakbang na Pre-Sharing Protocol

Gamitin ang mga hakbang na ito bago ibahagi ang anumang survey o interview file.

Hakbang 1: Lagyan ng label ang bawat column Markahan ang bawat column bilang fixed PII, fixed non-PII, o open-text. Isulat ito.

Hakbang 2: Pangasiwaan ang fixed PII Burahin ang mga entry na hindi kailangan para sa analysis. Palitan ang mga entry na kailangan para sa pag-link ng mga rekord. Itala ang mga code na ginamit.

Hakbang 3: I-scan ang mga open-text na column Patakbuhin ang NLP detection sa lahat ng open-text na column. Suriin ang bawat resulta. Kumpirmahin kung alin ang tunay na PII.

Hakbang 4: Ilapat ang mga replacement Palitan ang nakumpirmang PII sa open-text na output. Gumamit ng malinaw na mga label tulad ng [PERSON], [EMAIL], o [LOCATION].

Hakbang 5: I-verify at idokumento Mag-sample ng 50-100 row mula sa output. Suriin ang mga open-text na entry nang mano-mano. Sumulat ng maikling buod: mga tool na ginamit, mga uri ng entity na natuklasan, mga column na naproseso. Ibahagi ito kasama ang file para sa pagsusuri ng etika.

Ginagawa nitong "tinalikdan namin ang column ng pangalan" sa isang malinaw, dokumentadong proseso. Nakakatugon ito sa GDPR Article 89 at sa mga pamantayan ng anonymization na hinihingi ng karamihan sa mga ethics board. Bisitahin ang aming docs hub para sa mga kaugnay na gabay.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.