Az "E-mail Oszlop Törlése" Nem Elegendő
A kutatók a GDPR-megfelelőség alapjaként az explicit azonosítókat — a neveket, e-maileket, TAJ-számokat, telefonszámokat — tartalmazó oszlopok törlésével kezdik. Ez szükséges, de nem elégséges.
A rejtett PII a CSV szabad szöveges mezőkben:
A kutatási adatkészletek szabad szöveges mezőket tartalmaznak, amelyek személyes adatokat rejthetnek:
| Mező neve | Tartalom | PII? |
|---|---|---|
notes | "John Smith 2024-04-15-én látogatta meg..." | Igen (név, dátum) |
diagnosis_text | "A beteg elmondta, hogy a 310-555-1234 számán..." | Igen (telefon) |
interviewer_notes | "A résztvevő a New York-i Maimonides Kórházban..." | Igen (helyszín) |
Ezek a mezők nem tartalmazzák az explicit PII-t strukturáltan — ezek narratív szövegek, amelyek véletlenül tartalmaznak PII-t.
Szabad Szöveges PII Észlelés
A szabad szöveges mezők a PII-észlelés leginkább igényes részei — természetes nyelvű feldolgozást igényelnek, nem csak regex mintaillesztést.
Megközelítés az NER-rel:
A Named Entity Recognition (NER) modell azonosítja a nevet, szervezetet, helyszínt és dátumot szabad szövegben. Kimenete az észlelt entitások listája a szövegen belüli pozícióval.
Az észlelt entitásokat vagy eltávolítják, vagy tokenekkel helyettesítik a kutatási adatkészletben.
CSV Kötegelt Feldolgozás
A nagy kutatási CSV adatkészleteknél (100 000+ sor) a kötegelt feldolgozás megközelítése:
- Azonosítsa a PII-kockázatú oszlopokat (szabad szöveg, megjegyzések, narratívák)
- Futtassa az NER-t minden szabad szöveges mezőn
- Szerkessze a megtalált entitásokat tokenre
- Állítsa elő a névtelenített CSV-t
Forrás: UK ICO: Anonymisation: managing data protection risk code of practice