چرا Excel پرخطرترین نوع فایل شماست

فایل‌های Excel یکی از بزرگ‌ترین خطرات GDPR در اکثر کسب‌وکارها هستند. پرونده‌های پزشکی ممکن است داده حساس‌تری در هر ردیف داشته باشند. اما صفحات گسترده PII را سریع انباشته می‌کنند — و تیم‌های انطباق اغلب آن‌ها را نادیده می‌گیرند.

سه چیز فایل‌های Excel را سخت به مدیریت می‌کند.

حجم: یک فایل XLSX می‌تواند ۵۰,۰۰۰ ردیف و ۱۰۰ ستون داشته باشد. این پنج میلیون سلول است. هیچ بررسی دستی نمی‌تواند همه آن‌ها را بررسی کند.

طرح شبکه‌ای: متن در یک جهت جاری می‌شود. Excel داده را در ردیف‌ها و ستون‌ها پخش می‌کند. داده شخصی می‌تواند هر جایی در آن شبکه پنهان شود.

محتوای مختلط: گروه‌های حقوقی، کدهای بخش، و درجه‌های شغلی در همان فایل با SSNها و آدرس‌های ایمیل قرار دارند. پاک کردن همه چیز فایل را بی‌فایده می‌کند.

نگهداری طولانی: لیست‌های کارمندی و رکوردهای مشتری سال‌ها در Excel می‌مانند. ماده ۵(۱)(e) GDPR می‌گوید داده باید «نه بیشتر از آنچه لازم است» نگه داشته شود. فایل‌هایی که «ممکن است مفید باشند» اغلب بسیار فراتر از آن نقطه می‌مانند.

چرا اسکن‌های متن استاندارد روی صفحات گسترده شکست می‌خورند

ابزارهای تحلیل متن برای اسناد ساخته شده‌اند. آن‌ها به چند روش رایج روی صفحات گسترده شکست می‌خورند.

مشکل SSN به عنوان عدد

Excel شماره‌های تأمین اجتماعی را بدون خط تیره (123456789) به عنوان اعداد ساده — نه متن — ذخیره می‌کند. اسکنری که برای یافتن ###-##-#### ساخته شده آن‌ها را از دست خواهد داد. یک ابزار خوب باید بداند که یک عدد ۹ رقمی در ستونی به نام «SSN» یک شماره تأمین اجتماعی است.

مشکل تاریخ به عنوان عدد

Excel تاریخ‌ها را به عنوان اعداد سریال ذخیره می‌کند. ۶ فوریه ۲۰۲۴ به عنوان ۴۵۳۲۹ ذخیره می‌شود. یک صادرات CSV «۴۵۳۲۹» را در ستون «تاریخ تولد» نشان خواهد داد. یک اسکنر باید آن عدد را قبل از علامت‌گذاری مقدار به یک تاریخ واقعی تبدیل کند.

مشکل SSN جزئی

برخی سیستم‌ها فقط چهار رقم آخر SSN را نشان می‌دهند (*--1234). عدد کامل در یک ستون قفل‌شده قرار دارد. مقدار جزئی هنوز باید ناشناس شود — حتی اگر شبیه SSN کامل نباشد.

مشکل PII فرمول

برخی سلول‌ها PII را از سلول‌های دیگر می‌سازند. سلولی با =CONCATENATE(B2," ",C2) نام کامل نشان می‌دهد. اگر ستون‌های B و C را پاک کنید، آن نام کامل هنوز در سلول فرمول قابل مشاهده است. ابزاری که فقط مقادیر ذخیره‌شده را می‌خواند — نه لینک‌های فرمول — PII را باقی خواهد گذاشت.

مشکل چند برگه

یک کتاب کار بزرگ ممکن است پنج برگه داشته باشد: لیست مشتریان، سفارشات، تیکت‌های پشتیبانی، صورتحساب، و تحلیل. نام مشتریان در همه پنج نمایان می‌شود. «جان اسمیت» در یک برگه باید به همان توکن — «PERSON_0047» — در هر برگه دیگری تبدیل شود. دو توکن مختلف لینک‌های رکورد را می‌شکنند.

سرآیندهای ستون به عنوان یک سیگنال

بهترین پیشرفت در تشخیص PII صفحه گسترده، تحلیل سرآیند ستون است.

ستونی به نام «SSN» به ابزار می‌گوید که تمام مقادیر در آن ستون شماره‌های تأمین اجتماعی هستند. این حتی اگر مقادیر جزئی، با فرمت عجیب، یا به عنوان اعداد ذخیره شده باشند کار می‌کند.

سرآیند ستون	چه چیزی سیگنال می‌دهد
SSN / شماره تأمین اجتماعی / شناسه مالیاتی	اعداد ۹ رقمی را به عنوان SSN رفتار کن
ایمیل / E-mail / آدرس ایمیل	حتی الگوهای ایمیل جزئی را علامت بزن
تلفن / شماره تلفن / موبایل / سلول	هر فرمت تلفن را بپذیر
تاریخ تولد / DOB / Birthday	اعداد سریال را به تاریخ تبدیل کن
نام / نام خانوادگی / نام کامل	آستانه تشخیص نام را پایین بیاور
آدرس / خیابان / شهر / کد پستی	فیلدهای مکان نزدیک را ترکیب کن
شناسه بیمار / MRN / شماره رکورد	الگوهای شناسه مراقبت بهداشتی را اعمال کن

زمینه ستون جایگزین اسکن محتوا نمی‌شود. به آن اضافه می‌کند. ستونی به نام «SSN» با ۱۰۰ مقدار: اسکن محتوا ۹۹ مورد با فرمت مناسب را می‌گیرد. زمینه ستون آن یکی با ظاهر عجیب را می‌گیرد.

ساختار را نگه دارید، نام‌ها را حذف کنید

هدف در اکثر موارد GDPR Excel این نیست که فایل را نابود کنیم. این است که داده شخصی را پاک کنیم در حالی که بخش‌هایی که فایل را مفید می‌کنند را نگه می‌داریم.

برای یک فایل رکوردهای کارمندی ۱۵,۰۰۰ ردیفی، یک مسئول انطباق نیاز دارد:

حذف:

نام کارمندان → توکن‌های PERSON_XXXX
SSNها → REDACTED
آدرس‌های ایمیل → REDACTED
شماره تلفن → REDACTED
آدرس‌های منزل → REDACTED

نگه داشتن:

کدهای بخش
عناوین شغلی (نقش‌های کلی فقط)
گروه‌های حقوقی (دسته‌های گسترده)
امتیازهای عملکردی (داده گروهی)
تاریخ‌های شروع (برای آمار سابقه)
کدهای مدیر (در صورت مستعار)

ابزاری که تفاوت بین «داده‌ای که مردم را نام می‌برد» و «داده‌ای که مشاغل را توصیف می‌کند» را می‌داند، فایلی می‌دهد که برای تحلیل منابع انسانی همچنان کار می‌کند — و قوانین کمینه‌سازی داده GDPR را برآورده می‌کند.

مثال واقعی: انتقال داده منابع انسانی M&A

یک شرکت خریدار رکوردهای کارمندان شرکت هدف را دریافت می‌کند: یک XLSX با ۱۵,۰۰۰ ردیف و ۴۰ ستون. فایل باید به یک شرکت منابع انسانی خارجی برای برنامه‌ریزی مزایا برود. GDPR می‌گوید فقط داده لازم برای آن وظیفه می‌تواند به اشتراک گذاشته شود.

قبل از پردازش: ۴۰ ستون با نام‌های کامل، SSNها، ایمیل‌ها، آدرس‌های منزل، مخاطبین اضطراری، و اطلاعات بانکی.

پس از پردازش با زمینه ستون:

۱۲ ستون مستقیماً مردم را شناسایی می‌کنند (نام‌ها، SSNها، ایمیل‌ها، تلفن، آدرس‌ها، داده بانکی): با توکن‌های هماهنگ جایگزین شد
۳ ستون به طور غیرمستقیم مردم را شناسایی می‌کنند (شناسه کارمند، کد مدیر، کد شغل): با توکن‌های مستعار که در فایل تطابق دارند جایگزین شد
۲۵ ستون داده تجمیعی هستند (گروه حقوقی، بخش، سابقه، درجه): بدون تغییر باقی ماند

زمان: ۸ دقیقه برای ۶۰۰,۰۰۰ سلول

خروجی: همان طرح XLSX، ۴۰ ستون، ۱۵ ناشناس‌شده، ۲۵ بدون تغییر

گزارش حسابرسی: رکورد سطح سلول از هر اقدام با نوع نهاد، امتیاز اطمینان، و سیگنال ستون استفاده‌شده

شرکت منابع انسانی مجموعه داده کاملی برای کار خود دریافت می‌کند — بدون نام یا شناسه. رکورد انطباق دلیل دریافت می‌کند که فقط داده درست به اشتراک گذاشته شده.

این چالش منحصر به Excel نیست. هر فرمت فایل به شیوه خاص خود شکست می‌خورد. برای نگاهی در سراسر انواع فایل چگونگی تأثیر پراکندگی فرمت بر تشخیص PII را ببینید.

ناشناس‌سازی ساختاریافته صفحه گسترده سه قانون را همزمان برآورده می‌کند.

کمینه‌سازی داده (ماده ۵(۱)(c)): فقط ستون‌هایی که برای وظیفه لازم هستند به گیرنده می‌روند. ستون‌های شناسایی پاک می‌شوند.

محدودیت ذخیره‌سازی (ماده ۵(۱)(e)): فایل اصلی برای نگهداری قانونی می‌ماند. یک کپی تمیز برای اشتراک‌گذاری ساخته می‌شود — با نیاز کوتاه‌تر یا بدون نیاز به نگهداری.

یکپارچگی و محرمانگی (ماده ۵(۱)(f)): هیچ داده شناسایی از منطقه کنترل خارج نمی‌شود. فقط کپی‌های تمیز به اشتراک گذاشته می‌شوند.

گزارش حسابرسی از فرآیند نیز دلیل ماده ۵(۲) شماست. نشان می‌دهد چگونه هر قانون برای هر فایل رعایت شد.

اگر تیم شما با DSARها یا صادرات داده بزرگ کار می‌کند، همان منطق در سطح API اعمال می‌شود. برای نحوه کار کمینه‌سازی داده GDPR در APIهای زمان واقعی ببینید.

برای تیم‌هایی که با حجم بالا در مواعد سخت کار می‌کنند، برای الگوهای گردش کار که اینجا هم کاربرد دارند پردازش دسته‌ای GDPR DSAR در مقیاس را ببینید.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

PII در Excel: ناشناس‌سازی صدها ستون

چرا Excel پرخطرترین نوع فایل شماست

چرا اسکن‌های متن استاندارد روی صفحات گسترده شکست می‌خورند

مشکل SSN به عنوان عدد

مشکل تاریخ به عنوان عدد

مشکل SSN جزئی

مشکل PII فرمول

مشکل چند برگه

سرآیندهای ستون به عنوان یک سیگنال

ساختار را نگه دارید، نام‌ها را حذف کنید

مثال واقعی: انتقال داده منابع انسانی M&A

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

PII در Excel: ناشناس‌سازی صدها ستون

چرا Excel پرخطرترین نوع فایل شماست

چرا اسکن‌های متن استاندارد روی صفحات گسترده شکست می‌خورند

مشکل SSN به عنوان عدد

مشکل تاریخ به عنوان عدد

مشکل SSN جزئی

مشکل PII فرمول

مشکل چند برگه

سرآیندهای ستون به عنوان یک سیگنال

ساختار را نگه دارید، نام‌ها را حذف کنید

مثال واقعی: انتقال داده منابع انسانی M&A

سه قانون ماده ۵ GDPR، یک فرآیند

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow