By · Last updated 2026-06-05

بازگشت به وبلاگGDPR و انطباق

PII متن آزاد در CSV: فراتر از حذف ستون

CSVهای نظرسنجی PII را نه فقط در ستون‌های ساختاریافته بلکه در پاسخ‌های متن آزاد دارند. حذف ستون استاندارد PII که استاندارد GDPR را نقض می‌کند از دست می‌دهد.

June 5, 20267 دقیقه مطالعه
research dataCSV anonymizationGDPR Article 89survey datadata sharing

شکافی که حذف ستون از دست می‌دهد

به‌روز شده برای سال ۲۰۲۶

مجموعه‌داده‌های تحقیقاتی به صورت فایل‌های CSV بین دانشگاه‌ها جا به جا می‌شوند. وقتی تیم‌ها یک CSV را برای اشتراک‌گذاری آماده می‌کنند، کار مبتنی بر ستون است. اطلاعات شخصی را پیدا کنید. آن را حذف یا جایگزین کنید.

آن روش برای فیلدهای ثابت کار می‌کند. ستونی به نام «ایمیل» آدرس‌های ایمیل دارد — آن را حذف کنید. ستونی به نام «تلفن» شماره تلفن دارد — آن را حذف کنید. ستونی به نام «participant_name» نام‌ها دارد — آن را با یک کد عوض کنید.

اما ستون‌های پاسخ متن آزاد یک نقطه کور هستند. حذف ستون‌های برچسب‌دار آن‌ها را لمس نمی‌کند.

یک نظرسنجی با ۵,۰۰۰ ردیف ممکن است پنج ستون PII ساختاریافته و پانزده ستون پاسخ متن باز داشته باشد. ستون‌های ساختاریافته نام‌ها، ایمیل‌ها، شماره تلفن‌ها، شناسه‌ها، و سال‌های تولد دارند. ستون‌های متن باز نظرات، یادداشت‌ها، و پیشنهادات دارند.

ستون‌های ساختاریافته پاک می‌شوند. ستون‌های متن باز خام می‌مانند. اما مردم چنین چیزهایی می‌نویسند:

اول: «پزشکم در مرکز پزشکی بوستون، دکتر ماریا سانتوس، گفت که درمان جدید بود.» دوم: «از زمان تصادف ۲۰۱۹ من با این دست و پنجه نرم می‌کنم.» سوم: «می‌توانید با مراقب من به آدرس margaret.wells@gmail.com برای جزئیات تماس بگیرید.»

هر ورودی یک فرد واقعی را نام می‌برد. برخی شامل واقعیت‌های بهداشتی یا اطلاعات تماس هستند. هیچ کدام از اینها در یک سرآیند ستون ظاهر نمی‌شود. هیچ کدام توسط حذف ستون گرفته نمی‌شوند.

چرا این استاندارد GDPR را برآورده نمی‌کند

عتبار ۲۶ GDPR رکوردهای ناشناس را به عنوان رکوردهایی تعریف می‌کند که نمی‌توانند به هیچ فردی مرتبط شوند. آستانه بالا است. رکوردها فقط زمانی واقعاً ناشناس هستند که شناسایی مجدد به طور معقول امکان‌پذیر نباشد.

یک CSV با ستون‌های ثابت تمیز اما افراد نام‌برده‌شده در متن باز آن آزمون را پاس نمی‌کند. آن نام‌ها قابل شناسایی هستند. مجموعه‌داده هنوز شخصی است. قوانین ماده ۸۹ GDPR همچنان اعمال می‌شوند. پس این سه خطر ظهور می‌کنند.

معافیت تحقیقات ماده ۸۹: ماده ۸۹ به محققان اجازه می‌دهد اطلاعات شخصی را برای علم با وظایف کمتری پردازش کنند. اما فقط جایی که «حفاظ‌های مناسب» وجود داشته باشد. اشتراک‌گذاری فایل با PII متن باز در حالی که ادعای پوشش ماده ۸۹ می‌شود یک شکست قانونی است.

تأیید اخلاقی: اکثر IRBها و هیئت‌های اخلاقی ناشناس‌سازی کامل برای مجموعه‌داده‌های به اشتراک گذاشته‌شده را الزامی می‌کنند. کار جزئی — ستون‌های ثابت تمیز، متن باز خام — معمولاً شکست می‌خورد. هیئت می‌تواند ارسال را رد کند.

توافق‌نامه‌های اشتراک‌گذاری داده: DSAها بین مؤسسات سطح ناشناس‌سازی لازم را تعیین می‌کنند. کار جزئی که عتبار ۲۶ GDPR را برآورده نمی‌کند ممکن است DSA را نقض کند. برای اینکه این در یک برنامه گسترده‌تر چطور جا می‌گیرد مروری بر انطباق حقوقی ما را ببینید.

چرا متن باز تمیز کردنش اینقدر سخت است

پاسخ‌های نظرسنجی متن آزاد از سخت‌ترین اهداف PII هستند. دلایل:

نام‌ها در زمینه: «دکتر ماریا سانتوس در مرکز پزشکی بوستون» نیاز به تشخیص نهاد نام‌گذاری‌شده (NER) دارد تا یک فرد و یک سازمان را علامت بزند. فهرست‌های کلیدواژه نمی‌توانند این را پیدا کنند.

نام‌ها در داستان‌ها: «ماشین جان هندرسون با ماشین من تصادف کرد» یک نام واقعی را درون یک داستان قرار می‌دهد. این یک فرد نام‌برده‌شده در گذر است. فقط NER آن را می‌گیرد.

فرمت‌های غیراستاندارد: اطلاعات تماس ممکن است به صورت «با من به آدرس margaret dot wells at gmail تماس بگیرید» خوانده شود. ابزارهای regex ساده این‌ها را از دست می‌دهند.

اصطلاحات مخصوص تحقیقات: نظرسنجی‌های بالینی اغلب شامل شناسه‌های بیمارستانی، کدهای سایت، و نام‌های مکان هستند. اینها می‌توانند حتی وقتی عمومی به نظر می‌رسند یک فرد را شناسایی کنند.

پس تطابق الگو به تنهایی کافی نیست. ابزارهای مبتنی بر NLP برای ناشناس‌سازی واقعی نظرسنجی لازم هستند. برای گزینه‌های فنی امنیت و انطباق را ببینید.

یک مثال واقعی از سه دانشگاه

یک تیم تحقیقاتی در سه دانشگاه اروپایی یک نظرسنجی تجربه بیمار انجام داد. مجموعه‌داده ۵,۰۰۰ پاسخ‌دهنده، ۳ ستون PII ثابت، و ۸ ستون متن باز داشت. برنامه اشتراک‌گذاری فایل در سراسر سایت‌ها تحت یک DSA و ماده ۸۹ GDPR بود.

فقط با حذف ستون:

  • ستون‌های PII ثابت: حذف شد
  • ستون‌های متن باز: خام ماند
  • ادعا: «ستون‌های PII حذف شدند»
  • PII باقیمانده: ۴۷ فرد نام‌برده‌شده، ۲۳ آدرس ایمیل در نظرات، ۱۸ نام مکان که می‌توانند پاسخ‌دهندگان را شناسایی کنند

با تشخیص مبتنی بر NLP:

  • ستون‌های PII ثابت: با توکن‌های هماهنگ جایگزین شدند
  • ستون‌های متن باز: ۴۷ نام جایگزین شدند، ۲۳ ایمیل ماسک شدند، ۱۸ نام مکان عمومی شدند («مرکز پزشکی بوستون» → «[مؤسسه مراقبت بهداشتی]»)
  • نتیجه: فایلی که عتبار ۲۶ GDPR را پاس می‌کند
  • هیئت اخلاقی روش را تأیید کرد
  • DPO انطباق DSA را تأیید کرد

شکاف واقعی است. خروجی اول تمیز به نظر می‌رسد. خروجی دوم تمیز است.

یک پروتکل پنج‌مرحله‌ای قبل از اشتراک‌گذاری

قبل از اشتراک‌گذاری هر فایل نظرسنجی یا مصاحبه از این مراحل استفاده کنید.

مرحله ۱: هر ستون را برچسب بزنید هر ستون را به عنوان PII ثابت، غیر PII ثابت، یا متن باز علامت‌گذاری کنید. آن را بنویسید.

مرحله ۲: PII ثابت را مدیریت کنید ورودی‌های لازم نبرای تحلیل را حذف کنید. ورودی‌های لازم برای ارتباط رکوردها را جایگزین کنید. کدهای استفاده‌شده را ثبت کنید.

مرحله ۳: ستون‌های متن باز را اسکن کنید تشخیص NLP را روی تمام ستون‌های متن باز اجرا کنید. هر نتیجه را بررسی کنید. تأیید کنید کدام‌ها PII واقعی هستند.

مرحله ۴: جایگزینی‌ها را اعمال کنید PII تأییدشده را در خروجی متن باز جایگزین کنید. از برچسب‌های واضح مانند [PERSON]، [EMAIL]، یا [LOCATION] استفاده کنید.

مرحله ۵: تأیید و مستندسازی کنید ۵۰–۱۰۰ ردیف از خروجی را نمونه‌برداری کنید. ورودی‌های متن باز را به صورت دستی بررسی کنید. یک خلاصه کوتاه بنویسید: ابزارهای استفاده‌شده، انواع نهاد یافت‌شده، ستون‌های پردازش‌شده. آن را با فایل برای بررسی اخلاقی به اشتراک بگذارید.

این «ستون نام را حذف کردیم» را به یک فرآیند واضح و مستند تبدیل می‌کند. ماده ۸۹ GDPR و استانداردهای ناشناس‌سازی که اکثر هیئت‌های اخلاقی نیاز دارند را برآورده می‌کند. برای راهنماهای مرتبط مرکز اسناد ما را ببینید.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.