شکافی که حذف ستون از دست می‌دهد

به‌روز شده برای سال ۲۰۲۶

مجموعه‌داده‌های تحقیقاتی به صورت فایل‌های CSV بین دانشگاه‌ها جا به جا می‌شوند. وقتی تیم‌ها یک CSV را برای اشتراک‌گذاری آماده می‌کنند، کار مبتنی بر ستون است. اطلاعات شخصی را پیدا کنید. آن را حذف یا جایگزین کنید.

آن روش برای فیلدهای ثابت کار می‌کند. ستونی به نام «ایمیل» آدرس‌های ایمیل دارد — آن را حذف کنید. ستونی به نام «تلفن» شماره تلفن دارد — آن را حذف کنید. ستونی به نام «participant_name» نام‌ها دارد — آن را با یک کد عوض کنید.

اما ستون‌های پاسخ متن آزاد یک نقطه کور هستند. حذف ستون‌های برچسب‌دار آن‌ها را لمس نمی‌کند.

یک نظرسنجی با ۵,۰۰۰ ردیف ممکن است پنج ستون PII ساختاریافته و پانزده ستون پاسخ متن باز داشته باشد. ستون‌های ساختاریافته نام‌ها، ایمیل‌ها، شماره تلفن‌ها، شناسه‌ها، و سال‌های تولد دارند. ستون‌های متن باز نظرات، یادداشت‌ها، و پیشنهادات دارند.

ستون‌های ساختاریافته پاک می‌شوند. ستون‌های متن باز خام می‌مانند. اما مردم چنین چیزهایی می‌نویسند:

اول: «پزشکم در مرکز پزشکی بوستون، دکتر ماریا سانتوس، گفت که درمان جدید بود.» دوم: «از زمان تصادف ۲۰۱۹ من با این دست و پنجه نرم می‌کنم.» سوم: «می‌توانید با مراقب من به آدرس margaret.wells@gmail.com برای جزئیات تماس بگیرید.»

هر ورودی یک فرد واقعی را نام می‌برد. برخی شامل واقعیت‌های بهداشتی یا اطلاعات تماس هستند. هیچ کدام از اینها در یک سرآیند ستون ظاهر نمی‌شود. هیچ کدام توسط حذف ستون گرفته نمی‌شوند.

عتبار ۲۶ GDPR رکوردهای ناشناس را به عنوان رکوردهایی تعریف می‌کند که نمی‌توانند به هیچ فردی مرتبط شوند. آستانه بالا است. رکوردها فقط زمانی واقعاً ناشناس هستند که شناسایی مجدد به طور معقول امکان‌پذیر نباشد.

یک CSV با ستون‌های ثابت تمیز اما افراد نام‌برده‌شده در متن باز آن آزمون را پاس نمی‌کند. آن نام‌ها قابل شناسایی هستند. مجموعه‌داده هنوز شخصی است. قوانین ماده ۸۹ GDPR همچنان اعمال می‌شوند. پس این سه خطر ظهور می‌کنند.

معافیت تحقیقات ماده ۸۹: ماده ۸۹ به محققان اجازه می‌دهد اطلاعات شخصی را برای علم با وظایف کمتری پردازش کنند. اما فقط جایی که «حفاظ‌های مناسب» وجود داشته باشد. اشتراک‌گذاری فایل با PII متن باز در حالی که ادعای پوشش ماده ۸۹ می‌شود یک شکست قانونی است.

تأیید اخلاقی: اکثر IRBها و هیئت‌های اخلاقی ناشناس‌سازی کامل برای مجموعه‌داده‌های به اشتراک گذاشته‌شده را الزامی می‌کنند. کار جزئی — ستون‌های ثابت تمیز، متن باز خام — معمولاً شکست می‌خورد. هیئت می‌تواند ارسال را رد کند.

توافق‌نامه‌های اشتراک‌گذاری داده: DSAها بین مؤسسات سطح ناشناس‌سازی لازم را تعیین می‌کنند. کار جزئی که عتبار ۲۶ GDPR را برآورده نمی‌کند ممکن است DSA را نقض کند. برای اینکه این در یک برنامه گسترده‌تر چطور جا می‌گیرد مروری بر انطباق حقوقی ما را ببینید.

چرا متن باز تمیز کردنش اینقدر سخت است

پاسخ‌های نظرسنجی متن آزاد از سخت‌ترین اهداف PII هستند. دلایل:

نام‌ها در زمینه: «دکتر ماریا سانتوس در مرکز پزشکی بوستون» نیاز به تشخیص نهاد نام‌گذاری‌شده (NER) دارد تا یک فرد و یک سازمان را علامت بزند. فهرست‌های کلیدواژه نمی‌توانند این را پیدا کنند.

نام‌ها در داستان‌ها: «ماشین جان هندرسون با ماشین من تصادف کرد» یک نام واقعی را درون یک داستان قرار می‌دهد. این یک فرد نام‌برده‌شده در گذر است. فقط NER آن را می‌گیرد.

فرمت‌های غیراستاندارد: اطلاعات تماس ممکن است به صورت «با من به آدرس margaret dot wells at gmail تماس بگیرید» خوانده شود. ابزارهای regex ساده این‌ها را از دست می‌دهند.

اصطلاحات مخصوص تحقیقات: نظرسنجی‌های بالینی اغلب شامل شناسه‌های بیمارستانی، کدهای سایت، و نام‌های مکان هستند. اینها می‌توانند حتی وقتی عمومی به نظر می‌رسند یک فرد را شناسایی کنند.

پس تطابق الگو به تنهایی کافی نیست. ابزارهای مبتنی بر NLP برای ناشناس‌سازی واقعی نظرسنجی لازم هستند. برای گزینه‌های فنی امنیت و انطباق را ببینید.

یک مثال واقعی از سه دانشگاه

یک تیم تحقیقاتی در سه دانشگاه اروپایی یک نظرسنجی تجربه بیمار انجام داد. مجموعه‌داده ۵,۰۰۰ پاسخ‌دهنده، ۳ ستون PII ثابت، و ۸ ستون متن باز داشت. برنامه اشتراک‌گذاری فایل در سراسر سایت‌ها تحت یک DSA و ماده ۸۹ GDPR بود.

فقط با حذف ستون:

ستون‌های PII ثابت: حذف شد
ستون‌های متن باز: خام ماند
ادعا: «ستون‌های PII حذف شدند»
PII باقیمانده: ۴۷ فرد نام‌برده‌شده، ۲۳ آدرس ایمیل در نظرات، ۱۸ نام مکان که می‌توانند پاسخ‌دهندگان را شناسایی کنند

با تشخیص مبتنی بر NLP:

ستون‌های PII ثابت: با توکن‌های هماهنگ جایگزین شدند
ستون‌های متن باز: ۴۷ نام جایگزین شدند، ۲۳ ایمیل ماسک شدند، ۱۸ نام مکان عمومی شدند («مرکز پزشکی بوستون» → «[مؤسسه مراقبت بهداشتی]»)
نتیجه: فایلی که عتبار ۲۶ GDPR را پاس می‌کند
هیئت اخلاقی روش را تأیید کرد
DPO انطباق DSA را تأیید کرد

شکاف واقعی است. خروجی اول تمیز به نظر می‌رسد. خروجی دوم تمیز است.

یک پروتکل پنج‌مرحله‌ای قبل از اشتراک‌گذاری

قبل از اشتراک‌گذاری هر فایل نظرسنجی یا مصاحبه از این مراحل استفاده کنید.

مرحله ۱: هر ستون را برچسب بزنید هر ستون را به عنوان PII ثابت، غیر PII ثابت، یا متن باز علامت‌گذاری کنید. آن را بنویسید.

مرحله ۲: PII ثابت را مدیریت کنید ورودی‌های لازم نبرای تحلیل را حذف کنید. ورودی‌های لازم برای ارتباط رکوردها را جایگزین کنید. کدهای استفاده‌شده را ثبت کنید.

مرحله ۳: ستون‌های متن باز را اسکن کنید تشخیص NLP را روی تمام ستون‌های متن باز اجرا کنید. هر نتیجه را بررسی کنید. تأیید کنید کدام‌ها PII واقعی هستند.

مرحله ۴: جایگزینی‌ها را اعمال کنید PII تأییدشده را در خروجی متن باز جایگزین کنید. از برچسب‌های واضح مانند [PERSON]، [EMAIL]، یا [LOCATION] استفاده کنید.

مرحله ۵: تأیید و مستندسازی کنید ۵۰–۱۰۰ ردیف از خروجی را نمونه‌برداری کنید. ورودی‌های متن باز را به صورت دستی بررسی کنید. یک خلاصه کوتاه بنویسید: ابزارهای استفاده‌شده، انواع نهاد یافت‌شده، ستون‌های پردازش‌شده. آن را با فایل برای بررسی اخلاقی به اشتراک بگذارید.

این «ستون نام را حذف کردیم» را به یک فرآیند واضح و مستند تبدیل می‌کند. ماده ۸۹ GDPR و استانداردهای ناشناس‌سازی که اکثر هیئت‌های اخلاقی نیاز دارند را برآورده می‌کند. برای راهنماهای مرتبط مرکز اسناد ما را ببینید.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

PII متن آزاد در CSV: فراتر از حذف ستون

شکافی که حذف ستون از دست می‌دهد

چرا متن باز تمیز کردنش اینقدر سخت است

یک مثال واقعی از سه دانشگاه

یک پروتکل پنج‌مرحله‌ای قبل از اشتراک‌گذاری

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

PII متن آزاد در CSV: فراتر از حذف ستون

شکافی که حذف ستون از دست می‌دهد

چرا این استاندارد GDPR را برآورده نمی‌کند

چرا متن باز تمیز کردنش اینقدر سخت است

یک مثال واقعی از سه دانشگاه

یک پروتکل پنج‌مرحله‌ای قبل از اشتراک‌گذاری

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow