A strukturált és a szabad szöveges személyes adatok problémája
Az akadémiai intézmények között megosztott kutatási adatok leggyakrabban CSV-formátumban utaznak. Amikor a kutatók CSV-fájlokat készítenek megosztásra, a szokásos anonimizálási ellenőrző lista oszlopalapú: azonosítja a személyes adatokat tartalmazó oszlopokat, törli vagy pszeudoanonimizálja azokat.
Ez a megközelítés megbízhatóan kezeli a strukturált személyes adatokat. Az „e-mail” nevű oszlop e-mail-címeket tartalmaz — törölje. A „telefon” nevű oszlop telefonszámokat tartalmaz — törölje. A „résztvevő_neve” nevű oszlop neveket tartalmaz — pszeudoanonimizálja.
Amit az oszloptörlési megközelítés kihogy: a szabad szöveges válaszoszlopokban beágyazott személyes adatok.
Egy 5 000 soros, 20 oszlopos felmérési adatkészlet a következőket tartalmazhatja:
- 5 strukturált személyes adatoszlop (név, e-mail, telefon, azonosító, születési év)
- 15 szabad szöveges válaszoszlop („további_megjegyzések”, „tapasztalat_leírása”, „mi_javítaná”, „egyéb_részletek”)
A strukturált oszlopokat az oszloptörlés megtisztítja. A szabad szöveges oszlopok változatlanok maradnak. A felmérés résztvevői azonban ilyeneket írnak:
- „Az orvosom a Szegedi Klinikai Központon, Dr. Kovács Mária azt mondta, a kezelés kísérleti jellegű"
- "Ezzel küzdök a 2019-es balesetem óta, amikor Nagy János kocsija elütött"
- "Ha több információra van szüksége, keresse gondozómat a szabo.eva@gmail.com emailen"
Ezek a bejegyzések nevesített személyeket, intézményi kapcsolódásokat, egészségügyi adatokat és elérhetőségeket tartalmaznak — amelyek egyike sem szerepel az oszlopfejlécekben, és egyiket sem rögzíti az oszloptörlési anonimizálás.
Miért nem felel meg ez a GDPR anonimizálási szabványának?
A GDPR 26. preambulumbekezdése az anonim adatokat olyan információként határozza meg, amelyek „nem vonatkoznak azonosított vagy azonosítható természetes személyre”. Az anonimizálás mércéje magas: az adatok csak akkor anonimak, ha ésszerű becslés szerint „lehetetlen” az érintett azonosítása.
A részben anonimizált kutatási CSV — strukturált oszlopok megtisztítva, szabad szöveges oszlopok nevesített személyeket tartalmaznak — nem felel meg ennek a szabványnak. A szabad szöveges válaszokban szereplő nevesített személyek azonosíthatók, az adatkészlet tehát GDPR 89. cikkbeli biztosítéki követelmények hatálya alá eső személyes adatok marad.
Ez több kutatási kontextusban is fontos:
89. cikkbeli kutatási mentesség: A GDPR 89. cikke lehetővé teszi a személyes adatok tudományos kutatási célú feldolgozását csökkentett kötelezettségekkel, de csak „megfelelő biztosítékok” meglétével. Olyan adatkészlet megosztása, amely részben anonimizált (de szabad szövegben még tartalmaz személyes adatokat), miközben az állítólag teljesíti a 89. cikk biztosítékait, megfelelőségi hiba.
Kutatásetikai bizottsági jóváhagyás: A legtöbb akadémiai IRB és etikai felülvizsgáló testület megköveteli, hogy a megosztott adatkészletek valóban anonimizáltak legyenek. A szabad szöveges személyes adatokat megtartó részleges anonimizálás jellemzően nem teljesíti az etikai jóváhagyás feltételeit.
Intézmények közötti adatmegosztási megállapodások: A kutatási adatokra vonatkozó DSA-k jellemzően meghatározzák, hogy a megosztott adatokat meghatározott szabvány szerint kell anonimizálni. A GDPR 26. preambulumbekezdésének nem megfelelő részleges anonimizálás megszegheti a DSA-t.
A szabad szöveges személyes adatok felismerésének műszaki kihívása
A szabad szöveges felmérési válaszok az egyik legnehezebb személyes adat-felismerési célpontok, mert:
Kontextuális elnevezés: A „Dr. Kovács Mária a Szegedi Klinikai Központon” azt igényli, hogy az NER „Kovács Mária”-t személyként és „Szegedi Klinikai Központ”-ot szervezetként ismerje fel — nem kulcsszavas egyezés. A minták nem megjósolhatók.
Véletlen azonosítás: A „Nagy János kocsija elütött” azt igényli, hogy az NER elbeszélési kontextusban „Nagy János”-t nevesített személyként azonosítsa — nem adatmezőként, hanem történetben hivatkozott személyként.
Kapcsolattartási adatok váratlan formátumokban: A szabad szövegben megjelenő e-mail-címek és telefonszámok nem szokványos formázással rendelkezhetnek ("írjon a margaret pont wells kukac gmail-re"), amelyet a csak regex-alapú felismerés kihogy.
Kutatásspecifikus entitástípusok: Az akadémiai és klinikai kutatási adatok gyakran tartalmaznak intézményi azonosítókat (kórházi azonosítók, kutatóhely-kódok), klinikai terminológiát és helyre utaló hivatkozásokat, amelyek kontextusban személyes adatok, még ha nem is nyilvánvalóan azok.
Ezért szükséges NLP-alapú felismerés — nem csupán mintaegyezés — a szabad szöveges felmérések valódi anonimizálásához.
Felhasználási eset: Több intézményt átfogó kutatási konzorcium
Három európai egyetem kutatási konzorciuma betegélmény-felmérést végzett: 5 000 válaszadó, 3 strukturált személyes adatoszlop és 8 szabad szöveges válaszoszlop. Az adatokat az intézmények között kellett megosztani közös elemzésre egy adatmegosztási megállapodás és a GDPR 89. cikkbeli mentesség keretében.
Szokásos megközelítés (csak oszloptörlés):
- 3 strukturált személyes adatoszlop eltávolítva
- 8 szabad szöveges oszlop változatlanul megőrizve
- Megfelelőségi igény: „Személyes adatoszlopokat töröltük"
- Tényleges fennmaradó személyes adatok: 47 nevesített személy a szabad szöveges válaszokban, 23 megjegyzésekben önként megadott e-mail-cím, 18 helyre utaló hivatkozás, amely kontextusban azonosíthatja a válaszadókat
Szabad szöveges NLP-felismeréssel:
- 3 strukturált személyes adatoszlop pszeudoanonimizálva (következetes tokenek, nem törölve — megőrizve a sorszám integritását)
- 8 szabad szöveges oszlop feldolgozva: 47 személynév felismerve és helyettesítve, 23 e-mail-cím felismerve és maszkolva, 18 helyre utaló hivatkozás felismerve és általánosítva ("Szegedi Klinikai Központ" → „[Egészségügyi intézmény]")
- Kimenet: a GDPR 26. preambulumbekezdése szabványának megfelelően valóban anonimizált adatkészlet
- A kutatásetikai bizottság elfogadta az anonimizálási módszertant
- A DSA-megfelelőséget az adatvédelmi tisztviselő felülvizsgálata megerősítette
A különbség: a második megközelítés olyan adatkészletet állít elő, amely valóban teljesíti az anonimizálási szabványt. Az első megközelítés olyan adatkészletet állít elő, amely anonimizáltnak tűnik, de azonosítható adatokat tartalmaz a nem felülvizsgált oszlopokban.
Kutatási adat-anonimizálási protokoll felépítése
Felmérési és interjúadatokkal dolgozó kutatócsapatok számára strukturált megosztás előtti protokoll:
1. lépés: Oszloposztályozás
- Az összes oszlop kategorizálása: strukturált személyes adat, strukturált nem személyes adat, szabad szöveges válasz
- Az osztályozás dokumentálása
2. lépés: Strukturált személyes adatok kezelése
- Törlés (ha nem szükséges a kutatáshoz) vagy pszeudoanonimizálás (ha szükséges a rekordkapcsolathoz)
- Az alkalmazott helyettesítő tokenek dokumentálása
3. lépés: Szabad szöveges tartalomelemzés
- NLP-felismerés futtatása az összes szabad szöveges oszlopon
- Felismert entitások felülvizsgálata: megerősítés, hogy melyek képviselnek valódi személyes adatot
- Helyettesítések alkalmazása a megerősített személyes adat entitásokra
4. lépés: Ellenőrzés
- 50-100 sor mintavételezése a kimeneti adatkészletből
- A felismert entitásokat tartalmazó szabad szöveges bejegyzések kézi felülvizsgálata
- A felismerési arány megfelelőségének megerősítése az oszloptípushoz
5. lépés: Dokumentáció
- Anonimizálási módszertani dokumentum: alkalmazott eszközök, felismert entitástípusok, feldolgozott oszlopok
- A módszertani dokumentum megosztása az anonimizált adatkészlettel együtt az etikai felülvizsgálathoz
Ez a protokoll a „töröltük a névcol oszlopot” kifejezést átalakítja védhető, dokumentált anonimizálási folyamattá, amely teljesíti a GDPR 89. cikk és az intézményi kutatásetikai követelményeket.
Források: