A strukturált és a szabad szöveges személyes adatok problémája

Az akadémiai intézmények között megosztott kutatási adatok leggyakrabban CSV-formátumban utaznak. Amikor a kutatók CSV-fájlokat készítenek megosztásra, a szokásos anonimizálási ellenőrző lista oszlopalapú: azonosítja a személyes adatokat tartalmazó oszlopokat, törli vagy pszeudoanonimizálja azokat.

Ez a megközelítés megbízhatóan kezeli a strukturált személyes adatokat. Az „e-mail” nevű oszlop e-mail-címeket tartalmaz — törölje. A „telefon” nevű oszlop telefonszámokat tartalmaz — törölje. A „résztvevő_neve” nevű oszlop neveket tartalmaz — pszeudoanonimizálja.

Amit az oszloptörlési megközelítés kihogy: a szabad szöveges válaszoszlopokban beágyazott személyes adatok.

Egy 5 000 soros, 20 oszlopos felmérési adatkészlet a következőket tartalmazhatja:

5 strukturált személyes adatoszlop (név, e-mail, telefon, azonosító, születési év)
15 szabad szöveges válaszoszlop („további_megjegyzések”, „tapasztalat_leírása”, „mi_javítaná”, „egyéb_részletek”)

A strukturált oszlopokat az oszloptörlés megtisztítja. A szabad szöveges oszlopok változatlanok maradnak. A felmérés résztvevői azonban ilyeneket írnak:

„Az orvosom a Szegedi Klinikai Központon, Dr. Kovács Mária azt mondta, a kezelés kísérleti jellegű"
"Ezzel küzdök a 2019-es balesetem óta, amikor Nagy János kocsija elütött"
"Ha több információra van szüksége, keresse gondozómat a szabo.eva@gmail.com emailen"

Ezek a bejegyzések nevesített személyeket, intézményi kapcsolódásokat, egészségügyi adatokat és elérhetőségeket tartalmaznak — amelyek egyike sem szerepel az oszlopfejlécekben, és egyiket sem rögzíti az oszloptörlési anonimizálás.

A GDPR 26. preambulumbekezdése az anonim adatokat olyan információként határozza meg, amelyek „nem vonatkoznak azonosított vagy azonosítható természetes személyre”. Az anonimizálás mércéje magas: az adatok csak akkor anonimak, ha ésszerű becslés szerint „lehetetlen” az érintett azonosítása.

A részben anonimizált kutatási CSV — strukturált oszlopok megtisztítva, szabad szöveges oszlopok nevesített személyeket tartalmaznak — nem felel meg ennek a szabványnak. A szabad szöveges válaszokban szereplő nevesített személyek azonosíthatók, az adatkészlet tehát GDPR 89. cikkbeli biztosítéki követelmények hatálya alá eső személyes adatok marad.

Ez több kutatási kontextusban is fontos:

89. cikkbeli kutatási mentesség: A GDPR 89. cikke lehetővé teszi a személyes adatok tudományos kutatási célú feldolgozását csökkentett kötelezettségekkel, de csak „megfelelő biztosítékok” meglétével. Olyan adatkészlet megosztása, amely részben anonimizált (de szabad szövegben még tartalmaz személyes adatokat), miközben az állítólag teljesíti a 89. cikk biztosítékait, megfelelőségi hiba.

Kutatásetikai bizottsági jóváhagyás: A legtöbb akadémiai IRB és etikai felülvizsgáló testület megköveteli, hogy a megosztott adatkészletek valóban anonimizáltak legyenek. A szabad szöveges személyes adatokat megtartó részleges anonimizálás jellemzően nem teljesíti az etikai jóváhagyás feltételeit.

Intézmények közötti adatmegosztási megállapodások: A kutatási adatokra vonatkozó DSA-k jellemzően meghatározzák, hogy a megosztott adatokat meghatározott szabvány szerint kell anonimizálni. A GDPR 26. preambulumbekezdésének nem megfelelő részleges anonimizálás megszegheti a DSA-t.

A szabad szöveges személyes adatok felismerésének műszaki kihívása

A szabad szöveges felmérési válaszok az egyik legnehezebb személyes adat-felismerési célpontok, mert:

Kontextuális elnevezés: A „Dr. Kovács Mária a Szegedi Klinikai Központon” azt igényli, hogy az NER „Kovács Mária”-t személyként és „Szegedi Klinikai Központ”-ot szervezetként ismerje fel — nem kulcsszavas egyezés. A minták nem megjósolhatók.

Véletlen azonosítás: A „Nagy János kocsija elütött” azt igényli, hogy az NER elbeszélési kontextusban „Nagy János”-t nevesített személyként azonosítsa — nem adatmezőként, hanem történetben hivatkozott személyként.

Kapcsolattartási adatok váratlan formátumokban: A szabad szövegben megjelenő e-mail-címek és telefonszámok nem szokványos formázással rendelkezhetnek ("írjon a margaret pont wells kukac gmail-re"), amelyet a csak regex-alapú felismerés kihogy.

Kutatásspecifikus entitástípusok: Az akadémiai és klinikai kutatási adatok gyakran tartalmaznak intézményi azonosítókat (kórházi azonosítók, kutatóhely-kódok), klinikai terminológiát és helyre utaló hivatkozásokat, amelyek kontextusban személyes adatok, még ha nem is nyilvánvalóan azok.

Ezért szükséges NLP-alapú felismerés — nem csupán mintaegyezés — a szabad szöveges felmérések valódi anonimizálásához.

Felhasználási eset: Több intézményt átfogó kutatási konzorcium

Három európai egyetem kutatási konzorciuma betegélmény-felmérést végzett: 5 000 válaszadó, 3 strukturált személyes adatoszlop és 8 szabad szöveges válaszoszlop. Az adatokat az intézmények között kellett megosztani közös elemzésre egy adatmegosztási megállapodás és a GDPR 89. cikkbeli mentesség keretében.

Szokásos megközelítés (csak oszloptörlés):

3 strukturált személyes adatoszlop eltávolítva
8 szabad szöveges oszlop változatlanul megőrizve
Megfelelőségi igény: „Személyes adatoszlopokat töröltük"
Tényleges fennmaradó személyes adatok: 47 nevesített személy a szabad szöveges válaszokban, 23 megjegyzésekben önként megadott e-mail-cím, 18 helyre utaló hivatkozás, amely kontextusban azonosíthatja a válaszadókat

Szabad szöveges NLP-felismeréssel:

3 strukturált személyes adatoszlop pszeudoanonimizálva (következetes tokenek, nem törölve — megőrizve a sorszám integritását)
8 szabad szöveges oszlop feldolgozva: 47 személynév felismerve és helyettesítve, 23 e-mail-cím felismerve és maszkolva, 18 helyre utaló hivatkozás felismerve és általánosítva ("Szegedi Klinikai Központ" → „[Egészségügyi intézmény]")
Kimenet: a GDPR 26. preambulumbekezdése szabványának megfelelően valóban anonimizált adatkészlet
A kutatásetikai bizottság elfogadta az anonimizálási módszertant
A DSA-megfelelőséget az adatvédelmi tisztviselő felülvizsgálata megerősítette

A különbség: a második megközelítés olyan adatkészletet állít elő, amely valóban teljesíti az anonimizálási szabványt. Az első megközelítés olyan adatkészletet állít elő, amely anonimizáltnak tűnik, de azonosítható adatokat tartalmaz a nem felülvizsgált oszlopokban.

Kutatási adat-anonimizálási protokoll felépítése

Felmérési és interjúadatokkal dolgozó kutatócsapatok számára strukturált megosztás előtti protokoll:

1. lépés: Oszloposztályozás

Az összes oszlop kategorizálása: strukturált személyes adat, strukturált nem személyes adat, szabad szöveges válasz
Az osztályozás dokumentálása

2. lépés: Strukturált személyes adatok kezelése

Törlés (ha nem szükséges a kutatáshoz) vagy pszeudoanonimizálás (ha szükséges a rekordkapcsolathoz)
Az alkalmazott helyettesítő tokenek dokumentálása

3. lépés: Szabad szöveges tartalomelemzés

NLP-felismerés futtatása az összes szabad szöveges oszlopon
Felismert entitások felülvizsgálata: megerősítés, hogy melyek képviselnek valódi személyes adatot
Helyettesítések alkalmazása a megerősített személyes adat entitásokra

4. lépés: Ellenőrzés

50-100 sor mintavételezése a kimeneti adatkészletből
A felismert entitásokat tartalmazó szabad szöveges bejegyzések kézi felülvizsgálata
A felismerési arány megfelelőségének megerősítése az oszloptípushoz

5. lépés: Dokumentáció

Anonimizálási módszertani dokumentum: alkalmazott eszközök, felismert entitástípusok, feldolgozott oszlopok
A módszertani dokumentum megosztása az anonimizált adatkészlettel együtt az etikai felülvizsgálathoz

Ez a protokoll a „töröltük a névcol oszlopot” kifejezést átalakítja védhető, dokumentált anonimizálási folyamattá, amely teljesíti a GDPR 89. cikk és az intézményi kutatásetikai követelményeket.

Források:

Kapcsolódó Cikkek

GDPR & Megfelelés

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

Ingyenes Próbát Kezd Funkciók Megtekintése

CSV szabad szöveges személyes adatok: az oszloptörlés nem elég

A strukturált és a szabad szöveges személyes adatok problémája

A szabad szöveges személyes adatok felismerésének műszaki kihívása

Felhasználási eset: Több intézményt átfogó kutatási konzorcium

Kutatási adat-anonimizálási protokoll felépítése

Kapcsolódó Cikkek

A saját üzemeltetésű PII megbukik a megfelelőségi auditon

A Presidio 220+ GDPR-entitást hagy ki

Konfigurációs eltérés: rejtett GDPR-kockázat

Készen áll az adatai védelmére?

CSV szabad szöveges személyes adatok: az oszloptörlés nem elég

A strukturált és a szabad szöveges személyes adatok problémája

Miért nem felel meg ez a GDPR anonimizálási szabványának?

A szabad szöveges személyes adatok felismerésének műszaki kihívása

Felhasználási eset: Több intézményt átfogó kutatási konzorcium

Kutatási adat-anonimizálási protokoll felépítése

Kapcsolódó Cikkek

A saját üzemeltetésű PII megbukik a megfelelőségi auditon

A Presidio 220+ GDPR-entitást hagy ki

Konfigurációs eltérés: rejtett GDPR-kockázat

Készen áll az adatai védelmére?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow