چرا Excel پرخطرترین نوع فایل شماست
فایلهای Excel یکی از بزرگترین خطرات GDPR در اکثر کسبوکارها هستند. پروندههای پزشکی ممکن است داده حساستری در هر ردیف داشته باشند. اما صفحات گسترده PII را سریع انباشته میکنند — و تیمهای انطباق اغلب آنها را نادیده میگیرند.
سه چیز فایلهای Excel را سخت به مدیریت میکند.
حجم: یک فایل XLSX میتواند ۵۰,۰۰۰ ردیف و ۱۰۰ ستون داشته باشد. این پنج میلیون سلول است. هیچ بررسی دستی نمیتواند همه آنها را بررسی کند.
طرح شبکهای: متن در یک جهت جاری میشود. Excel داده را در ردیفها و ستونها پخش میکند. داده شخصی میتواند هر جایی در آن شبکه پنهان شود.
محتوای مختلط: گروههای حقوقی، کدهای بخش، و درجههای شغلی در همان فایل با SSNها و آدرسهای ایمیل قرار دارند. پاک کردن همه چیز فایل را بیفایده میکند.
نگهداری طولانی: لیستهای کارمندی و رکوردهای مشتری سالها در Excel میمانند. ماده ۵(۱)(e) GDPR میگوید داده باید «نه بیشتر از آنچه لازم است» نگه داشته شود. فایلهایی که «ممکن است مفید باشند» اغلب بسیار فراتر از آن نقطه میمانند.
چرا اسکنهای متن استاندارد روی صفحات گسترده شکست میخورند
ابزارهای تحلیل متن برای اسناد ساخته شدهاند. آنها به چند روش رایج روی صفحات گسترده شکست میخورند.
مشکل SSN به عنوان عدد
Excel شمارههای تأمین اجتماعی را بدون خط تیره (123456789) به عنوان اعداد ساده — نه متن — ذخیره میکند. اسکنری که برای یافتن ###-##-#### ساخته شده آنها را از دست خواهد داد. یک ابزار خوب باید بداند که یک عدد ۹ رقمی در ستونی به نام «SSN» یک شماره تأمین اجتماعی است.
مشکل تاریخ به عنوان عدد
Excel تاریخها را به عنوان اعداد سریال ذخیره میکند. ۶ فوریه ۲۰۲۴ به عنوان ۴۵۳۲۹ ذخیره میشود. یک صادرات CSV «۴۵۳۲۹» را در ستون «تاریخ تولد» نشان خواهد داد. یک اسکنر باید آن عدد را قبل از علامتگذاری مقدار به یک تاریخ واقعی تبدیل کند.
مشکل SSN جزئی
برخی سیستمها فقط چهار رقم آخر SSN را نشان میدهند (*--1234). عدد کامل در یک ستون قفلشده قرار دارد. مقدار جزئی هنوز باید ناشناس شود — حتی اگر شبیه SSN کامل نباشد.
مشکل PII فرمول
برخی سلولها PII را از سلولهای دیگر میسازند. سلولی با =CONCATENATE(B2," ",C2) نام کامل نشان میدهد. اگر ستونهای B و C را پاک کنید، آن نام کامل هنوز در سلول فرمول قابل مشاهده است. ابزاری که فقط مقادیر ذخیرهشده را میخواند — نه لینکهای فرمول — PII را باقی خواهد گذاشت.
مشکل چند برگه
یک کتاب کار بزرگ ممکن است پنج برگه داشته باشد: لیست مشتریان، سفارشات، تیکتهای پشتیبانی، صورتحساب، و تحلیل. نام مشتریان در همه پنج نمایان میشود. «جان اسمیت» در یک برگه باید به همان توکن — «PERSON_0047» — در هر برگه دیگری تبدیل شود. دو توکن مختلف لینکهای رکورد را میشکنند.
سرآیندهای ستون به عنوان یک سیگنال
بهترین پیشرفت در تشخیص PII صفحه گسترده، تحلیل سرآیند ستون است.
ستونی به نام «SSN» به ابزار میگوید که تمام مقادیر در آن ستون شمارههای تأمین اجتماعی هستند. این حتی اگر مقادیر جزئی، با فرمت عجیب، یا به عنوان اعداد ذخیره شده باشند کار میکند.
| سرآیند ستون | چه چیزی سیگنال میدهد |
|---|---|
| SSN / شماره تأمین اجتماعی / شناسه مالیاتی | اعداد ۹ رقمی را به عنوان SSN رفتار کن |
| ایمیل / E-mail / آدرس ایمیل | حتی الگوهای ایمیل جزئی را علامت بزن |
| تلفن / شماره تلفن / موبایل / سلول | هر فرمت تلفن را بپذیر |
| تاریخ تولد / DOB / Birthday | اعداد سریال را به تاریخ تبدیل کن |
| نام / نام خانوادگی / نام کامل | آستانه تشخیص نام را پایین بیاور |
| آدرس / خیابان / شهر / کد پستی | فیلدهای مکان نزدیک را ترکیب کن |
| شناسه بیمار / MRN / شماره رکورد | الگوهای شناسه مراقبت بهداشتی را اعمال کن |
زمینه ستون جایگزین اسکن محتوا نمیشود. به آن اضافه میکند. ستونی به نام «SSN» با ۱۰۰ مقدار: اسکن محتوا ۹۹ مورد با فرمت مناسب را میگیرد. زمینه ستون آن یکی با ظاهر عجیب را میگیرد.
ساختار را نگه دارید، نامها را حذف کنید
هدف در اکثر موارد GDPR Excel این نیست که فایل را نابود کنیم. این است که داده شخصی را پاک کنیم در حالی که بخشهایی که فایل را مفید میکنند را نگه میداریم.
برای یک فایل رکوردهای کارمندی ۱۵,۰۰۰ ردیفی، یک مسئول انطباق نیاز دارد:
حذف:
- نام کارمندان → توکنهای PERSON_XXXX
- SSNها → REDACTED
- آدرسهای ایمیل → REDACTED
- شماره تلفن → REDACTED
- آدرسهای منزل → REDACTED
نگه داشتن:
- کدهای بخش
- عناوین شغلی (نقشهای کلی فقط)
- گروههای حقوقی (دستههای گسترده)
- امتیازهای عملکردی (داده گروهی)
- تاریخهای شروع (برای آمار سابقه)
- کدهای مدیر (در صورت مستعار)
ابزاری که تفاوت بین «دادهای که مردم را نام میبرد» و «دادهای که مشاغل را توصیف میکند» را میداند، فایلی میدهد که برای تحلیل منابع انسانی همچنان کار میکند — و قوانین کمینهسازی داده GDPR را برآورده میکند.
مثال واقعی: انتقال داده منابع انسانی M&A
یک شرکت خریدار رکوردهای کارمندان شرکت هدف را دریافت میکند: یک XLSX با ۱۵,۰۰۰ ردیف و ۴۰ ستون. فایل باید به یک شرکت منابع انسانی خارجی برای برنامهریزی مزایا برود. GDPR میگوید فقط داده لازم برای آن وظیفه میتواند به اشتراک گذاشته شود.
قبل از پردازش: ۴۰ ستون با نامهای کامل، SSNها، ایمیلها، آدرسهای منزل، مخاطبین اضطراری، و اطلاعات بانکی.
پس از پردازش با زمینه ستون:
- ۱۲ ستون مستقیماً مردم را شناسایی میکنند (نامها، SSNها، ایمیلها، تلفن، آدرسها، داده بانکی): با توکنهای هماهنگ جایگزین شد
- ۳ ستون به طور غیرمستقیم مردم را شناسایی میکنند (شناسه کارمند، کد مدیر، کد شغل): با توکنهای مستعار که در فایل تطابق دارند جایگزین شد
- ۲۵ ستون داده تجمیعی هستند (گروه حقوقی، بخش، سابقه، درجه): بدون تغییر باقی ماند
زمان: ۸ دقیقه برای ۶۰۰,۰۰۰ سلول
خروجی: همان طرح XLSX، ۴۰ ستون، ۱۵ ناشناسشده، ۲۵ بدون تغییر
گزارش حسابرسی: رکورد سطح سلول از هر اقدام با نوع نهاد، امتیاز اطمینان، و سیگنال ستون استفادهشده
شرکت منابع انسانی مجموعه داده کاملی برای کار خود دریافت میکند — بدون نام یا شناسه. رکورد انطباق دلیل دریافت میکند که فقط داده درست به اشتراک گذاشته شده.
این چالش منحصر به Excel نیست. هر فرمت فایل به شیوه خاص خود شکست میخورد. برای نگاهی در سراسر انواع فایل چگونگی تأثیر پراکندگی فرمت بر تشخیص PII را ببینید.
سه قانون ماده ۵ GDPR، یک فرآیند
ناشناسسازی ساختاریافته صفحه گسترده سه قانون را همزمان برآورده میکند.
کمینهسازی داده (ماده ۵(۱)(c)): فقط ستونهایی که برای وظیفه لازم هستند به گیرنده میروند. ستونهای شناسایی پاک میشوند.
محدودیت ذخیرهسازی (ماده ۵(۱)(e)): فایل اصلی برای نگهداری قانونی میماند. یک کپی تمیز برای اشتراکگذاری ساخته میشود — با نیاز کوتاهتر یا بدون نیاز به نگهداری.
یکپارچگی و محرمانگی (ماده ۵(۱)(f)): هیچ داده شناسایی از منطقه کنترل خارج نمیشود. فقط کپیهای تمیز به اشتراک گذاشته میشوند.
گزارش حسابرسی از فرآیند نیز دلیل ماده ۵(۲) شماست. نشان میدهد چگونه هر قانون برای هر فایل رعایت شد.
اگر تیم شما با DSARها یا صادرات داده بزرگ کار میکند، همان منطق در سطح API اعمال میشود. برای نحوه کار کمینهسازی داده GDPR در APIهای زمان واقعی ببینید.
برای تیمهایی که با حجم بالا در مواعد سخت کار میکنند، برای الگوهای گردش کار که اینجا هم کاربرد دارند پردازش دستهای GDPR DSAR در مقیاس را ببینید.