Vissza a BlograGDPR & Megfelelés

Miért Nem Elegendő az 'E-mail Oszlop Törlése'...

A neveket tartalmazó megjegyzés oszlopok, a diagnózisokat leíró szabad szövegek, és az eseteket hivatkozó azonosítók a CSV-kben strukturálatlan...

April 21, 20267 perc olvasás
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Az "E-mail Oszlop Törlése" Nem Elegendő

A kutatók a GDPR-megfelelőség alapjaként az explicit azonosítókat — a neveket, e-maileket, TAJ-számokat, telefonszámokat — tartalmazó oszlopok törlésével kezdik. Ez szükséges, de nem elégséges.

A rejtett PII a CSV szabad szöveges mezőkben:

A kutatási adatkészletek szabad szöveges mezőket tartalmaznak, amelyek személyes adatokat rejthetnek:

Mező neveTartalomPII?
notes"John Smith 2024-04-15-én látogatta meg..."Igen (név, dátum)
diagnosis_text"A beteg elmondta, hogy a 310-555-1234 számán..."Igen (telefon)
interviewer_notes"A résztvevő a New York-i Maimonides Kórházban..."Igen (helyszín)

Ezek a mezők nem tartalmazzák az explicit PII-t strukturáltan — ezek narratív szövegek, amelyek véletlenül tartalmaznak PII-t.

Szabad Szöveges PII Észlelés

A szabad szöveges mezők a PII-észlelés leginkább igényes részei — természetes nyelvű feldolgozást igényelnek, nem csak regex mintaillesztést.

Megközelítés az NER-rel:

A Named Entity Recognition (NER) modell azonosítja a nevet, szervezetet, helyszínt és dátumot szabad szövegben. Kimenete az észlelt entitások listája a szövegen belüli pozícióval.

Az észlelt entitásokat vagy eltávolítják, vagy tokenekkel helyettesítik a kutatási adatkészletben.

CSV Kötegelt Feldolgozás

A nagy kutatási CSV adatkészleteknél (100 000+ sor) a kötegelt feldolgozás megközelítése:

  1. Azonosítsa a PII-kockázatú oszlopokat (szabad szöveg, megjegyzések, narratívák)
  2. Futtassa az NER-t minden szabad szöveges mezőn
  3. Szerkessze a megtalált entitásokat tokenre
  4. Állítsa elő a névtelenített CSV-t

Forrás: UK ICO: Anonymisation: managing data protection risk code of practice

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.