Späť na blogGDPR a Dodržiavanie

Prečo "Vymazať Stĺpec E-mailu" Nestačí...

CSV so 100 000 riadkami "voľného textu" nôt. E-mail je vymazaný. Ale "Kontaktujte jane.smith@example.com ak máte otázky" v nôtach je stále tam.

April 21, 20267 min čítania
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Skúmavacia Databáza: "Máme CSV s nôtami bez PII"

Výskumný tím na univerzite chce zdieľať anónimizovaný datasét s kolegom v inej krajine:

Súbor: research_subjects.csv Riadky: 102,000 Stĺpce:

  • subject_id (anonymný)
  • age_range (20-30, 30-40, atď.)
  • condition (diabetes, hypertenzný, zdravý)
  • notes (voľný text, 50-300 znakov)

Krok 1: Ručná kontrola Menežér odstránil všetky identifikujúce stĺpce. Stĺpec PII: žiadny. Zdá sa, že je to čisté.

Krok 2: Skúmavateľ otvára súbor Hľadá v stĺpci "notes":

subject_id,age_range,condition,notes
50241,30-40,diabetes,"Patient reports good control. Follow-up with Dr. Sarah Chen at Boston Medical. Contact jane.smith@company.com if needed."
50242,20-30,hypertenzný,"Medication adjustment recommended. See records at Johns Hopkins. Patient asked to not contact via +1-617-555-0145."

Oops.

Stĺpec "notes" obsahuje:

  • E-mail: jane.smith@company.com
  • Telefón: +1-617-555-0145
  • Implicitná identifikácia: "Dr. Sarah Chen at Boston Medical" + age_range = identifikovateľné

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.