By · Last updated 2026-06-05

Tillbaka till BloggenGDPR & Efterlevnad

CSV-fritext och PII: Bortom kolumnradering

Enkät-CSV-filer innehåller PII inte bara i strukturerade kolumner utan i fritextsvar. Standard kolumnradering missar den PII som bryter mot GDPR:s anonymiseringskrav.

June 5, 20267 min läsning
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Luckan som kolumnradering missar

Uppdaterad för 2026

Forskningsdatamängder rör sig mellan universitet som CSV-filer. När team förbereder en CSV för delning är arbetet kolumnbaserat. Hitta personuppgifterna. Radera eller ersätt dem.

Den metoden fungerar för fasta fält. En kolumn med namnet "email" håller e-postadresser — radera den. En kolumn med namnet "telefon" håller telefonnummer — radera den. En kolumn med namnet "deltagarens_namn" håller namn — byt ut dem mot en kod.

Men fritextsvarkolumner är en blind fläck. Att ta bort märkta kolumner rör dem inte.

En enkät med 5 000 rader kan ha fem strukturerade PII-kolumner och femton öppna svarskolumner. De strukturerade håller namn, e-poster, telefonnummer, ID:n och födelseår. De öppna håller kommentarer, anteckningar och förslag.

De strukturerade kolumnerna rensas. De öppna kolumnerna förblir råa. Men människor skriver saker som dessa tre exempel.

Först: "Min läkare på Karolinska universitetssjukhuset, Dr. Maria Santos, sa att behandlingen var ny." Andra: "Jag har hanterat detta sedan min olycka 2019." Tredje: "Du kan nå min vårdgivare på margareta.holm@gmail.com för detaljer."

Varje post namnger en verklig person. Vissa inkluderar hälsouppgifter eller kontaktinformation. Ingenting av detta visas i en kolumnrubrik. Ingenting av det fångas upp av kolumnradering.

Varför detta inte uppfyller GDPR-standarden

GDPR Skäl 26 definierar anonyma poster som poster som inte kan kopplas till någon person. Ribban är hög. Poster är bara verkligt anonyma när återidentifikation inte är rimligen möjlig.

En CSV med rena fasta kolumner men namngivna personer i öppna texter klarar inte det testet. Dessa namn är identifierbara. Datamängden är fortfarande personlig. GDPR Artikel 89-reglerna gäller fortfarande. Så dessa tre risker uppstår.

Artikel 89 undantag för forskning: Artikel 89 tillåter forskare att behandla personuppgifter för vetenskap med färre skyldigheter. Men bara där "lämpliga skyddsåtgärder" finns. Att dela en fil med fritext-PII och hävda Artikel 89-täckning är ett juridiskt misslyckande.

Etikgodkännande: De flesta IRB:er och etikkommittéer kräver fullständig anonymisering för delade datamängder. Partiellt arbete — fasta kolumner rensade, öppen text lämnad rå — misslyckas vanligtvis. Nämnden kan avvisa ansökan.

Datadelningsavtal: DSA:er mellan institutioner anger den krävda anonymiseringsnivån. Partiellt arbete som misslyckas med GDPR Skäl 26 kan bryta DSA:n. Se vår juridisk efterlevnadsöversikt för hur detta passar ett bredare program.

Varför öppen text är så svår att rensa

Fritextsvar i enkäter är bland de svåraste PII-målen. Här är varför.

Namn i sammanhang: "Dr. Maria Santos på Karolinska universitetssjukhuset" kräver namngiven entitetsigenkänning (NER) för att flagga en person och en organisation. Nyckelordslistor kan inte hitta detta.

Namn i berättelser: "Johan Lindbergs bil träffade min" placerar ett verkligt namn inuti en berättelse. Det är en person namngiven i förbifarten. Bara NER fångar upp det.

Icke-standardformat: Kontaktinformation kan läsa "nå mig på margareta punkt holm hos gmail." Enkla regex-verktyg missar dessa.

Forskningsspecifika termer: Kliniska enkäter innehåller ofta sjukhus-ID:n, platskoder och platsnamn. Dessa kan identifiera en person även när de ser generiska ut.

Så mönstermatchning ensam räcker inte. NLP-baserade verktyg behövs för verklig enkätanonymisering. Se Säkerhet & Efterlevnad för tekniska alternativ.

Ett verkligt exempel från tre universitet

Ett forskarlag vid tre europeiska universitet genomförde en patientupplevelsenkät. Datamängden hade 5 000 respondenter, 3 fasta PII-kolumner och 8 öppna textkolumner. Planen var att dela filen över platser under ett DSA och GDPR Artikel 89.

Med enbart kolumnradering:

  • Fasta PII-kolumner: borttagna
  • Öppna textkolumner: lämnade råa
  • Påstående: "PII-kolumner raderade"
  • PII kvar: 47 namngivna personer, 23 e-postadresser i kommentarer, 18 platsnamn som kunde identifiera respondenter

Med NLP-baserad detektion:

  • Fasta PII-kolumner: ersatta med konsekventa tokens
  • Öppna textkolumner: 47 namn ersatta, 23 e-poster maskerade, 18 platsnamn gjorda generiska ("Karolinska universitetssjukhuset" → "[Vårdinstitution]")
  • Resultat: en fil som uppfyller GDPR Skäl 26
  • Etikkommittén godkände metoden
  • DPO bekräftade DSA-efterlevnad

Luckan är verklig. Den första utmatningen ser ren ut. Den andra utmatningen är ren.

Ett fem-stegs protokoll före delning

Använd dessa steg innan du delar en enkät- eller intervjufil.

Steg 1: Märk varje kolumn Märk varje kolumn som fast PII, fast icke-PII eller öppen text. Skriv ner det.

Steg 2: Hantera fast PII Radera poster som inte behövs för analysen. Ersätt poster som behövs för att länka poster. Registrera de koder som används.

Steg 3: Skanna öppna textkolumner Kör NLP-detektion på alla öppna textkolumner. Granska varje resultat. Bekräfta vilka som är verkliga PII.

Steg 4: Applicera ersättningar Ersätt bekräftade PII i öppen text-utmatningen. Använd tydliga etiketter som [PERSON], [EMAIL] eller [PLATS].

Steg 5: Verifiera och dokumentera Exempla 50–100 rader från utmatningen. Kontrollera de öppna textposterna för hand. Skriv en kort sammanfattning: verktyg som används, entitetstyper hittade, bearbetade kolumner. Dela det med filen för etikgranskning.

Detta förvandlar "vi raderade namnkolumnen" till en tydlig, dokumenterad process. Det uppfyller GDPR Artikel 89 och de anonymiseringsstandarder de flesta etikkommittéer kräver. Besök vår dokumentationshubb för relaterade guider.

Källor

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.