By · Last updated 2026-06-05

Atgal į BlogąGDPR ir Atitiktis

CSV laisvojo teksto asmens duomenys: anapus stulpelių ištrynimo

Apklausų CSV failuose asmens duomenys yra ne tik struktūrizuotuose stulpeliuose, bet ir laisvojo teksto atsakymuose. Standartinis stulpelių ištrynimas praleidžia asmens duomenis, pažeidžiančius BDAR reikalavimus.

June 5, 20267 min skaityti
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Spraga, kurią praleidžia stulpelių ištrynimas

Atnaujinta 2026 m.

Tyrimų duomenų rinkiniai juda tarp universitetų CSV failais. Kai komandos ruošia CSV bendrinimui, darbas yra stulpeliais pagrįstas. Raskite asmens informaciją. Ištrinkite ar pakeiskite ją.

Tas metodas veikia fiksuotiems laukams. Stulpelis, pavadintas "el. paštas", laiko el. pašto adresus - ištrinkite jį. Stulpelis, pavadintas "telefonas", laiko telefono numerius - ištrinkite jį. Stulpelis, pavadintas "dalyvio_vardas", laiko vardus - pakeiskite jį kodu.

Tačiau laisvojo teksto atsakymų stulpeliai yra aklas taškas. Pažymėtų stulpelių šalinimas jų nepalies.

Apklausa su 5 000 eilučių gali turėti penkis struktūrizuotus asmens duomenų stulpelius ir penkiolika atvirojo teksto atsakymų stulpelių. Struktūrizuoti laiko vardus, el. paštus, telefono numerius, ID ir gimimo metus. Atvirojo teksto laiko komentarus, pastabas ir pasiūlymus.

Struktūrizuoti stulpeliai išvalomi. Atvirojo teksto stulpeliai lieka neapdoroti. Tačiau žmonės rašo tokius dalykus kaip šie trys pavyzdžiai.

Pirmasis: "Mano gydytojas Bostono medicinos centre, daktarė Maria Santos, sakė, kad gydymas yra naujas." Antrasis: "Su tuo tvarkiausi nuo 2019 m. avarijos." Trečiasis: "Galite susisiekti su mano globėju margaret.wells@gmail.com dėl detalių."

Kiekvienas įrašas įvardija tikrą asmenį. Kai kurie apima sveikatos faktus ar kontaktinę informaciją. Niekas iš to nepasirodo stulpelio antraštėje. Niekas iš to nepastebima stulpelių ištrynimo.

Kodėl tai neatitinka BDAR standarto

BDAR 26 konstatuojamoji dalis apibrėžia anoniminius įrašus kaip įrašus, kurių negalima susieti su jokiu asmeniu. Riba yra aukšta. Įrašai yra tikrai anoniminiai tik tada, kai pakartotinė identifikacija nėra pagrįstai įmanoma.

CSV su švariais fiksuotais stulpeliais, bet įvardintais žmonėmis atvirojo teksto, nepraeina to testo. Tie vardai yra identifikuojami. Duomenų rinkinys vis dar yra asmens duomenys. BDAR 89 straipsnio taisyklės vis dar taikomos. Todėl iškyla trys rizikos.

89 straipsnio mokslinių tyrimų išimtis: 89 straipsnis leidžia tyrėjams tvarkyti asmens informaciją mokslui su mažiau pareigų. Tačiau tik ten, kur egzistuoja "tinkamos apsaugos priemonės". Failo su atvirojo teksto asmens duomenimis dalijimasis, teigiant 89 straipsnio apsaugą, yra teisinis nesėkmingas.

Etikos patvirtinimas: Dauguma IRB ir etikos komitetų reikalauja visiško anonimizavimo bendrinamiems duomenų rinkiniams. Dalinis darbas - fiksuoti stulpeliai išvalomi, atvirasis tekstas paliktas neapdorotas - paprastai žlunga. Komitetas gali atmesti pateikimą.

Duomenų dalijimosi sutartys: DSS tarp institucijų nustato reikalaujamą anonimizavimo lygį. Dalinis darbas, nepraeinantis BDAR 26 konstatuojamosios dalies, gali pažeisti DSS. Žiūrėkite mūsų teisinės atitikties apžvalgą kaip tai tinka platesnei programai.

Kodėl atvirojo teksto valymas yra toks sunkus

Laisvojo teksto apklausų atsakymai yra vieni sunkiausių asmens duomenų taikinių. Štai kodėl.

Vardai kontekste: "Daktarė Maria Santos Bostono medicinos centre" reikalauja įvardintų objektų atpažinimo (NER) asmeniui ir organizacijai pažymėti. Raktinių žodžių sąrašai to neranda.

Vardai istorijose: "Jono Hendersono automobilis mane trenkė" įdeda tikrą vardą į istoriją. Tai praeinamas vardu minimas asmuo. Tik NER jį pagauna.

Nestandartiniai formatai: Kontaktinė informacija gali skambėti "susisiekite su manimi margaret taškas wells etas gmail." Paprastos reguliariosios išraiškos įrankiai tai praleidžia.

Tyrimams būdingi terminai: Klinikiniai tyrimai dažnai turi ligoninių ID, vietos kodus ir vietovių pavadinimus. Jie gali identifikuoti asmenį net tada, kai atrodo bendrai.

Taigi vien šablonų atitikimo nepakanka. NLP pagrįsti įrankiai reikalingi tikram apklausų anonimizavimui. Žiūrėkite Saugumas ir atitiktis dėl techninių galimybių.

Tikras pavyzdys iš trijų universitetų

Trijų Europos universitetų tyrimo komanda vykdė pacientų patirties apklausą. Duomenų rinkinys turėjo 5 000 respondentų, 3 fiksuotus asmens duomenų stulpelius ir 8 atvirojo teksto stulpelius. Planas buvo bendrinti failą per vietas pagal DSS ir BDAR 89 straipsnį.

Tik stulpelių ištrynimo atveju:

  • Fiksuoti asmens duomenų stulpeliai: pašalinti
  • Atvirojo teksto stulpeliai: palikti neapdoroti
  • Teiginys: "asmens duomenų stulpeliai ištrinti"
  • Asmens duomenys, palikti: 47 įvardinti asmenys, 23 el. pašto adresai komentaruose, 18 vietos pavadinimų, galinčių identifikuoti respondentus

Su NLP pagrįstu aptikimu:

  • Fiksuoti asmens duomenų stulpeliai: pakeisti nuosekliais prieketais
  • Atvirojo teksto stulpeliai: 47 vardai pakeisti, 23 el. paštai užmaskuoti, 18 vietos pavadinimų padaryta bendrais ("Bostono medicinos centras" - "[Sveikatos priežiūros institucija]")
  • Rezultatas: failas, praeinantis BDAR 26 konstatuojamąją dalį
  • Etikos komitetas patvirtino metodą
  • DPO patvirtino DSS atitiktį

Spraga yra reali. Pirmas rezultatas atrodo švarus. Antras rezultatas yra švarus.

Penkių žingsnių protokolas prieš bendrinimą

Naudokite šiuos žingsnius prieš bendrindami bet kurį apklausos ar interviu failą.

1 žingsnis: Pažymėkite kiekvieną stulpelį Pažymėkite kiekvieną stulpelį kaip fiksuotus asmens duomenis, fiksuotus ne asmens duomenis ar atvirąjį tekstą. Užrašykite.

2 žingsnis: Tvarkykite fiksuotus asmens duomenis Ištrinkite įrašus, nereikalingus analizei. Pakeiskite įrašus, reikalingus įrašų susiejimui. Įrašykite naudojamus kodus.

3 žingsnis: Nuskaitykite atvirojo teksto stulpelius Vykdykite NLP aptikimą visuose atvirojo teksto stulpeliuose. Peržiūrėkite kiekvieną rezultatą. Patvirtinkite, kurie yra tikri asmens duomenys.

4 žingsnis: Taikykite pakeitimus Pakeiskite patvirtintus asmens duomenis atvirojo teksto išvestyje. Naudokite aiškias etiketes, tokias kaip [ASMUO], [EL. PASTAS] ar [VIETA].

5 žingsnis: Patikrinkite ir dokumentuokite Paimkite 50-100 eilučių pavyzdį iš išvesties. Patikrinkite atvirojo teksto įrašus ranka. Parašykite trumpą santrauką: naudoti įrankiai, rasti objektų tipai, apdoroti stulpeliai. Bendrinkite ją su failu etikos peržiūrai.

Tai paverčia "mes ištrynėme vardo stulpelį" aiškiu, dokumentuotu procesu. Tai atitinka BDAR 89 straipsnį ir daugumos etikos komitetų reikalaujamus anonimizavimo standartus. Apsilankykite mūsų dokumentacijos centre dėl susijusių vadovų.

Šaltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.