شکافی که حذف ستون از دست میدهد
بهروز شده برای سال ۲۰۲۶
مجموعهدادههای تحقیقاتی به صورت فایلهای CSV بین دانشگاهها جا به جا میشوند. وقتی تیمها یک CSV را برای اشتراکگذاری آماده میکنند، کار مبتنی بر ستون است. اطلاعات شخصی را پیدا کنید. آن را حذف یا جایگزین کنید.
آن روش برای فیلدهای ثابت کار میکند. ستونی به نام «ایمیل» آدرسهای ایمیل دارد — آن را حذف کنید. ستونی به نام «تلفن» شماره تلفن دارد — آن را حذف کنید. ستونی به نام «participant_name» نامها دارد — آن را با یک کد عوض کنید.
اما ستونهای پاسخ متن آزاد یک نقطه کور هستند. حذف ستونهای برچسبدار آنها را لمس نمیکند.
یک نظرسنجی با ۵,۰۰۰ ردیف ممکن است پنج ستون PII ساختاریافته و پانزده ستون پاسخ متن باز داشته باشد. ستونهای ساختاریافته نامها، ایمیلها، شماره تلفنها، شناسهها، و سالهای تولد دارند. ستونهای متن باز نظرات، یادداشتها، و پیشنهادات دارند.
ستونهای ساختاریافته پاک میشوند. ستونهای متن باز خام میمانند. اما مردم چنین چیزهایی مینویسند:
اول: «پزشکم در مرکز پزشکی بوستون، دکتر ماریا سانتوس، گفت که درمان جدید بود.» دوم: «از زمان تصادف ۲۰۱۹ من با این دست و پنجه نرم میکنم.» سوم: «میتوانید با مراقب من به آدرس margaret.wells@gmail.com برای جزئیات تماس بگیرید.»
هر ورودی یک فرد واقعی را نام میبرد. برخی شامل واقعیتهای بهداشتی یا اطلاعات تماس هستند. هیچ کدام از اینها در یک سرآیند ستون ظاهر نمیشود. هیچ کدام توسط حذف ستون گرفته نمیشوند.
چرا این استاندارد GDPR را برآورده نمیکند
عتبار ۲۶ GDPR رکوردهای ناشناس را به عنوان رکوردهایی تعریف میکند که نمیتوانند به هیچ فردی مرتبط شوند. آستانه بالا است. رکوردها فقط زمانی واقعاً ناشناس هستند که شناسایی مجدد به طور معقول امکانپذیر نباشد.
یک CSV با ستونهای ثابت تمیز اما افراد نامبردهشده در متن باز آن آزمون را پاس نمیکند. آن نامها قابل شناسایی هستند. مجموعهداده هنوز شخصی است. قوانین ماده ۸۹ GDPR همچنان اعمال میشوند. پس این سه خطر ظهور میکنند.
معافیت تحقیقات ماده ۸۹: ماده ۸۹ به محققان اجازه میدهد اطلاعات شخصی را برای علم با وظایف کمتری پردازش کنند. اما فقط جایی که «حفاظهای مناسب» وجود داشته باشد. اشتراکگذاری فایل با PII متن باز در حالی که ادعای پوشش ماده ۸۹ میشود یک شکست قانونی است.
تأیید اخلاقی: اکثر IRBها و هیئتهای اخلاقی ناشناسسازی کامل برای مجموعهدادههای به اشتراک گذاشتهشده را الزامی میکنند. کار جزئی — ستونهای ثابت تمیز، متن باز خام — معمولاً شکست میخورد. هیئت میتواند ارسال را رد کند.
توافقنامههای اشتراکگذاری داده: DSAها بین مؤسسات سطح ناشناسسازی لازم را تعیین میکنند. کار جزئی که عتبار ۲۶ GDPR را برآورده نمیکند ممکن است DSA را نقض کند. برای اینکه این در یک برنامه گستردهتر چطور جا میگیرد مروری بر انطباق حقوقی ما را ببینید.
چرا متن باز تمیز کردنش اینقدر سخت است
پاسخهای نظرسنجی متن آزاد از سختترین اهداف PII هستند. دلایل:
نامها در زمینه: «دکتر ماریا سانتوس در مرکز پزشکی بوستون» نیاز به تشخیص نهاد نامگذاریشده (NER) دارد تا یک فرد و یک سازمان را علامت بزند. فهرستهای کلیدواژه نمیتوانند این را پیدا کنند.
نامها در داستانها: «ماشین جان هندرسون با ماشین من تصادف کرد» یک نام واقعی را درون یک داستان قرار میدهد. این یک فرد نامبردهشده در گذر است. فقط NER آن را میگیرد.
فرمتهای غیراستاندارد: اطلاعات تماس ممکن است به صورت «با من به آدرس margaret dot wells at gmail تماس بگیرید» خوانده شود. ابزارهای regex ساده اینها را از دست میدهند.
اصطلاحات مخصوص تحقیقات: نظرسنجیهای بالینی اغلب شامل شناسههای بیمارستانی، کدهای سایت، و نامهای مکان هستند. اینها میتوانند حتی وقتی عمومی به نظر میرسند یک فرد را شناسایی کنند.
پس تطابق الگو به تنهایی کافی نیست. ابزارهای مبتنی بر NLP برای ناشناسسازی واقعی نظرسنجی لازم هستند. برای گزینههای فنی امنیت و انطباق را ببینید.
یک مثال واقعی از سه دانشگاه
یک تیم تحقیقاتی در سه دانشگاه اروپایی یک نظرسنجی تجربه بیمار انجام داد. مجموعهداده ۵,۰۰۰ پاسخدهنده، ۳ ستون PII ثابت، و ۸ ستون متن باز داشت. برنامه اشتراکگذاری فایل در سراسر سایتها تحت یک DSA و ماده ۸۹ GDPR بود.
فقط با حذف ستون:
- ستونهای PII ثابت: حذف شد
- ستونهای متن باز: خام ماند
- ادعا: «ستونهای PII حذف شدند»
- PII باقیمانده: ۴۷ فرد نامبردهشده، ۲۳ آدرس ایمیل در نظرات، ۱۸ نام مکان که میتوانند پاسخدهندگان را شناسایی کنند
با تشخیص مبتنی بر NLP:
- ستونهای PII ثابت: با توکنهای هماهنگ جایگزین شدند
- ستونهای متن باز: ۴۷ نام جایگزین شدند، ۲۳ ایمیل ماسک شدند، ۱۸ نام مکان عمومی شدند («مرکز پزشکی بوستون» → «[مؤسسه مراقبت بهداشتی]»)
- نتیجه: فایلی که عتبار ۲۶ GDPR را پاس میکند
- هیئت اخلاقی روش را تأیید کرد
- DPO انطباق DSA را تأیید کرد
شکاف واقعی است. خروجی اول تمیز به نظر میرسد. خروجی دوم تمیز است.
یک پروتکل پنجمرحلهای قبل از اشتراکگذاری
قبل از اشتراکگذاری هر فایل نظرسنجی یا مصاحبه از این مراحل استفاده کنید.
مرحله ۱: هر ستون را برچسب بزنید هر ستون را به عنوان PII ثابت، غیر PII ثابت، یا متن باز علامتگذاری کنید. آن را بنویسید.
مرحله ۲: PII ثابت را مدیریت کنید ورودیهای لازم نبرای تحلیل را حذف کنید. ورودیهای لازم برای ارتباط رکوردها را جایگزین کنید. کدهای استفادهشده را ثبت کنید.
مرحله ۳: ستونهای متن باز را اسکن کنید تشخیص NLP را روی تمام ستونهای متن باز اجرا کنید. هر نتیجه را بررسی کنید. تأیید کنید کدامها PII واقعی هستند.
مرحله ۴: جایگزینیها را اعمال کنید
PII تأییدشده را در خروجی متن باز جایگزین کنید. از برچسبهای واضح مانند [PERSON]، [EMAIL]، یا [LOCATION] استفاده کنید.
مرحله ۵: تأیید و مستندسازی کنید ۵۰–۱۰۰ ردیف از خروجی را نمونهبرداری کنید. ورودیهای متن باز را به صورت دستی بررسی کنید. یک خلاصه کوتاه بنویسید: ابزارهای استفادهشده، انواع نهاد یافتشده، ستونهای پردازششده. آن را با فایل برای بررسی اخلاقی به اشتراک بگذارید.
این «ستون نام را حذف کردیم» را به یک فرآیند واضح و مستند تبدیل میکند. ماده ۸۹ GDPR و استانداردهای ناشناسسازی که اکثر هیئتهای اخلاقی نیاز دارند را برآورده میکند. برای راهنماهای مرتبط مرکز اسناد ما را ببینید.