By · Last updated 2026-06-05

Takaisin BlogiinGDPR & Vaatimustenmukaisuus

CSV-vapaateksti ja henkilötieto: Pelkkä sarakkeiden poisto ei riitä

Tutkimus-CSV:t sisältävät henkilötietoa paitsi rakenteellisissa sarakkeissa myös vapaatekstivastauksissa. Tavallinen sarakkeiden poisto ei havaitse GDPR:n vaatimuksia rikkovia henkilötietoja.

June 5, 20267 min lukuaika
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Aukko, jonka sarakkeiden poisto jättää

Päivitetty vuodelle 2026

Tutkimusaineistot liikkuvat yliopistojen välillä CSV-tiedostoina. Kun tiimit valmistelevat CSV:n jakamista varten, työ on sarakepohjaista. Löydä henkilötieto. Poista tai korvaa se.

Tämä menetelmä toimii kiinteille kentille. "Sähköposti"-niminen sarake sisältää sähköpostiosoitteita — poista se. "Puhelin"-niminen sarake sisältää puhelinnumeroita — poista se. "Osallistujan_nimi"-niminen sarake sisältää nimiä — vaihda koodiksi.

Mutta vapaatekstivastaussarakkeet ovat sokea piste. Merkittyjen sarakkeiden poistaminen ei koske niitä.

5 000 rivin kyselyssä saattaa olla viisi rakenteellista henkilötietosaraketta ja viisitoista avotekstivastaussaraketta. Rakenteelliset sisältävät nimiä, sähköposteja, puhelinnumeroita, tunnistuksia ja syntymävuosia. Avoteksti sisältää kommentteja, muistiinpanoja ja ehdotuksia.

Rakenteelliset sarakkeet puhdistetaan. Avotekstisarakkeet jäävät raakoina. Mutta ihmiset kirjoittavat sellaisia asioita kuin nämä kolme esimerkkiä.

Ensimmäinen: "Lääkärini Bostonin lääketieteellisessä keskuksessa, Dr. Maria Santos, kertoi hoidon olevan uutta." Toinen: "Olen käsitellyt tätä vuoden 2019 onnettomuuteni jälkeen." Kolmas: "Voit tavoittaa hoitajani margaret.wells@gmail.com osoitteesta tarkempia tietoja varten."

Kukin merkintä nimeää todellisen henkilön. Jotkut sisältävät terveystietoja tai yhteystietoja. Mikään näistä ei esiinny sarakkeen otsikossa. Mikään niistä ei jää sarakkeiden poistolla kiinni.

Miksi tämä epäonnistuu GDPR-standardin mukaan

GDPR:n johdanto-osa 26 määrittelee anonyymit tietueet tietueiksi, joita ei voida yhdistää kehenkään henkilöön. Rima on korkea. Tietueet ovat aidosti anonyymejä vain silloin, kun uudelleentunnistaminen ei ole kohtuudella mahdollista.

CSV, jossa on puhtaat kiinteät sarakkeet mutta nimetyt henkilöt avotekstissä, ei läpäise tätä testiä. Nämä nimet ovat tunnistettavia. Tietoaineisto on edelleen henkilökohtainen. GDPR:n artiklan 89 säännöt soveltuvat edelleen. Siitä seuraa kolme riskiä.

Artiklan 89 tutkimuspoikkeus: Artikla 89 sallii tutkijoiden käsitellä henkilötietoja tiedettä varten vähemmillä velvollisuuksilla. Mutta vain silloin, kun "asianmukaiset suojatoimet" ovat olemassa. Tiedoston jakaminen avotekstissä olevilla henkilötiedoilla artiklan 89 suojan vetoamana on oikeudellinen epäonnistuminen.

Eettinen hyväksyntä: Useimmat eettisyyskomiteat ja arviointilautakunnat edellyttävät täydellistä anonymisointia jaetuille aineistoille. Osittainen työ — kiinteät sarakkeet puhdistettu, avoteksti raa'ana — yleensä hylätään. Lautakunta voi hylätä hakemuksen.

Datanjaosopimukset: Laitosten väliset DSA:t asettavat vaaditun anonymisointitason. Osittainen työ, joka ei täytä GDPR:n johdanto-osan 26 vaatimuksia, voi rikkoa DSA:ta. Katso Oikeudellisen vaatimustenmukaisuuden yleiskatsauksemme siitä, miten tämä sopii laajempaan ohjelmaan.

Miksi avoteksti on niin vaikea puhdistaa

Vapaamuotoiset kyselyvastaukset ovat vaikeimpia henkilötietokohteita. Tässä syy.

Nimet kontekstissa: "Dr. Maria Santos Bostonin lääketieteellisessä keskuksessa" vaatii nimettyjen yksikköjen tunnistusta (NER) henkilön ja organisaation merkitsemiseen. Avainsanalistat eivät löydä tätä.

Nimet tarinoissa: "John Hendersonin auto törmäsi minun autooni" asettaa todellisen nimen tarinan sisään. Se on ohimennen mainittu henkilö. Vain NER havaitsee sen.

Epätavalliset muodot: Yhteystieto saattaa olla muodossa "tavoita minut margaret piste wells at gmail." Yksinkertaiset regex-työkalut jättävät nämä huomaamatta.

Tutkimuskohtaiset termit: Kliiniset kyselyt sisältävät usein sairaala-tunnuksia, paikkatunnuksia ja paikannimiä. Nämä voivat tunnistaa henkilön, vaikka ne näyttävät geneerisiltä.

Pelkkä kaavojen etsintä ei siis riitä. Aidossa kyselyjen anonymisoinnissa tarvitaan NLP-pohjaisia työkaluja. Katso Tietoturva & Vaatimustenmukaisuus teknisistä vaihtoehdoista.

Todellinen esimerkki kolmesta yliopistosta

Kolmen eurooppalaisen yliopiston tutkimustiimi teki potilaiden kokemuksia koskevan kyselyn. Aineistossa oli 5 000 vastaajaa, 3 kiinteää henkilötietosaraketta ja 8 avotekstisaraketta. Suunnitelma oli jakaa tiedosto sivustojen välillä DSA:n ja GDPR:n artiklan 89 nojalla.

Vain sarakkeiden poistolla:

  • Kiinteät henkilötietosarakkeet: poistettu
  • Avotekstisarakkeet: jätetty raakoina
  • Väite: "Henkilötietosarakkeet poistettu"
  • Jäljelle jääneet henkilötiedot: 47 nimettyä henkilöä, 23 sähköpostiosoitetta kommenteissa, 18 paikanimeä, jotka voivat tunnistaa vastaajia

NLP-pohjaisella tunnistuksella:

  • Kiinteät henkilötietosarakkeet: korvattu johdonmukaisilla tunnisteilla
  • Avotekstisarakkeet: 47 nimeä korvattu, 23 sähköpostia peitetty, 18 paikanimeä muutettu yleisiksi ("Bostonin lääketieteellinen keskus" → "[Terveydenhuoltolaitos]")
  • Tulos: tiedosto läpäisee GDPR:n johdanto-osan 26
  • Eettisyyskomitea hyväksyi menetelmän
  • Tietosuojavastaava vahvisti DSA-vaatimustenmukaisuuden

Aukko on todellinen. Ensimmäinen tuloste näyttää puhtaalta. Toinen tuloste on puhdas.

Viisivaiheinen ennakkojako-protokolla

Käytä näitä vaiheita ennen minkään kysely- tai haastattelutiedoston jakamista.

Vaihe 1: Merkitse jokainen sarake Merkitse jokainen sarake kiinteäksi henkilötiedoksi, kiinteäksi ei-henkilötiedoksi tai avotekstiksi. Kirjoita se ylös.

Vaihe 2: Käsittele kiinteä henkilötieto Poista analyysiin tarpeettomat merkinnät. Korvaa tietueiden linkittämiseen tarvittavat merkinnät. Kirjaa käytetyt koodit.

Vaihe 3: Skannaa avotekstisarakkeet Aja NLP-tunnistus kaikilla avotekstisarakkeilla. Tarkista jokainen tulos. Vahvista mitkä ovat todellista henkilötietoa.

Vaihe 4: Tee korvaukset Korvaa vahvistettu henkilötieto avotekstin tulosteessa. Käytä selkeitä merkintöjä kuten [PERSON], [EMAIL] tai [LOCATION].

Vaihe 5: Vahvista ja dokumentoi Ota 50–100 rivin otos tulosteesta. Tarkista avotekstimerkinnät käsin. Kirjoita lyhyt yhteenveto: käytetyt työkalut, löydetyt yksikkötyypit, käsitellyt sarakkeet. Jaa se tiedoston mukana eettistä tarkastelua varten.

Tämä muuttaa "poistimme nimisarakkeen" selkeäksi, dokumentoiduksi prosessiksi. Se täyttää GDPR:n artiklan 89 ja anonymisointistandardit, joita useimmat eettisyyskomiteat edellyttävät. Käy dokumentaatiokeskuksessamme muita aiheeseen liittyviä oppaita varten.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.