By · Last updated 2026-06-05

بازگشت به وبلاگGDPR و انطباق

PII در Excel: ناشناس‌سازی صدها ستون

فایل‌های Excel از پرتراکم‌ترین اسناد PII در عملیات تجاری هستند. اینجا توضیح می‌دهیم چرا تحلیل متن استاندارد روی صفحات گسترده شکست می‌خورد و چه زمینه ستونی کمک می‌کند.

June 5, 20268 دقیقه مطالعه
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

چرا Excel پرخطرترین نوع فایل شماست

فایل‌های Excel یکی از بزرگ‌ترین خطرات GDPR در اکثر کسب‌وکارها هستند. پرونده‌های پزشکی ممکن است داده حساس‌تری در هر ردیف داشته باشند. اما صفحات گسترده PII را سریع انباشته می‌کنند — و تیم‌های انطباق اغلب آن‌ها را نادیده می‌گیرند.

سه چیز فایل‌های Excel را سخت به مدیریت می‌کند.

حجم: یک فایل XLSX می‌تواند ۵۰,۰۰۰ ردیف و ۱۰۰ ستون داشته باشد. این پنج میلیون سلول است. هیچ بررسی دستی نمی‌تواند همه آن‌ها را بررسی کند.

طرح شبکه‌ای: متن در یک جهت جاری می‌شود. Excel داده را در ردیف‌ها و ستون‌ها پخش می‌کند. داده شخصی می‌تواند هر جایی در آن شبکه پنهان شود.

محتوای مختلط: گروه‌های حقوقی، کدهای بخش، و درجه‌های شغلی در همان فایل با SSNها و آدرس‌های ایمیل قرار دارند. پاک کردن همه چیز فایل را بی‌فایده می‌کند.

نگهداری طولانی: لیست‌های کارمندی و رکوردهای مشتری سال‌ها در Excel می‌مانند. ماده ۵(۱)(e) GDPR می‌گوید داده باید «نه بیشتر از آنچه لازم است» نگه داشته شود. فایل‌هایی که «ممکن است مفید باشند» اغلب بسیار فراتر از آن نقطه می‌مانند.

چرا اسکن‌های متن استاندارد روی صفحات گسترده شکست می‌خورند

ابزارهای تحلیل متن برای اسناد ساخته شده‌اند. آن‌ها به چند روش رایج روی صفحات گسترده شکست می‌خورند.

مشکل SSN به عنوان عدد

Excel شماره‌های تأمین اجتماعی را بدون خط تیره (123456789) به عنوان اعداد ساده — نه متن — ذخیره می‌کند. اسکنری که برای یافتن ###-##-#### ساخته شده آن‌ها را از دست خواهد داد. یک ابزار خوب باید بداند که یک عدد ۹ رقمی در ستونی به نام «SSN» یک شماره تأمین اجتماعی است.

مشکل تاریخ به عنوان عدد

Excel تاریخ‌ها را به عنوان اعداد سریال ذخیره می‌کند. ۶ فوریه ۲۰۲۴ به عنوان ۴۵۳۲۹ ذخیره می‌شود. یک صادرات CSV «۴۵۳۲۹» را در ستون «تاریخ تولد» نشان خواهد داد. یک اسکنر باید آن عدد را قبل از علامت‌گذاری مقدار به یک تاریخ واقعی تبدیل کند.

مشکل SSN جزئی

برخی سیستم‌ها فقط چهار رقم آخر SSN را نشان می‌دهند (*--1234). عدد کامل در یک ستون قفل‌شده قرار دارد. مقدار جزئی هنوز باید ناشناس شود — حتی اگر شبیه SSN کامل نباشد.

مشکل PII فرمول

برخی سلول‌ها PII را از سلول‌های دیگر می‌سازند. سلولی با =CONCATENATE(B2," ",C2) نام کامل نشان می‌دهد. اگر ستون‌های B و C را پاک کنید، آن نام کامل هنوز در سلول فرمول قابل مشاهده است. ابزاری که فقط مقادیر ذخیره‌شده را می‌خواند — نه لینک‌های فرمول — PII را باقی خواهد گذاشت.

مشکل چند برگه

یک کتاب کار بزرگ ممکن است پنج برگه داشته باشد: لیست مشتریان، سفارشات، تیکت‌های پشتیبانی، صورتحساب، و تحلیل. نام مشتریان در همه پنج نمایان می‌شود. «جان اسمیت» در یک برگه باید به همان توکن — «PERSON_0047» — در هر برگه دیگری تبدیل شود. دو توکن مختلف لینک‌های رکورد را می‌شکنند.

سرآیندهای ستون به عنوان یک سیگنال

بهترین پیشرفت در تشخیص PII صفحه گسترده، تحلیل سرآیند ستون است.

ستونی به نام «SSN» به ابزار می‌گوید که تمام مقادیر در آن ستون شماره‌های تأمین اجتماعی هستند. این حتی اگر مقادیر جزئی، با فرمت عجیب، یا به عنوان اعداد ذخیره شده باشند کار می‌کند.

سرآیند ستونچه چیزی سیگنال می‌دهد
SSN / شماره تأمین اجتماعی / شناسه مالیاتیاعداد ۹ رقمی را به عنوان SSN رفتار کن
ایمیل / E-mail / آدرس ایمیلحتی الگوهای ایمیل جزئی را علامت بزن
تلفن / شماره تلفن / موبایل / سلولهر فرمت تلفن را بپذیر
تاریخ تولد / DOB / Birthdayاعداد سریال را به تاریخ تبدیل کن
نام / نام خانوادگی / نام کاملآستانه تشخیص نام را پایین بیاور
آدرس / خیابان / شهر / کد پستیفیلدهای مکان نزدیک را ترکیب کن
شناسه بیمار / MRN / شماره رکوردالگوهای شناسه مراقبت بهداشتی را اعمال کن

زمینه ستون جایگزین اسکن محتوا نمی‌شود. به آن اضافه می‌کند. ستونی به نام «SSN» با ۱۰۰ مقدار: اسکن محتوا ۹۹ مورد با فرمت مناسب را می‌گیرد. زمینه ستون آن یکی با ظاهر عجیب را می‌گیرد.

ساختار را نگه دارید، نام‌ها را حذف کنید

هدف در اکثر موارد GDPR Excel این نیست که فایل را نابود کنیم. این است که داده شخصی را پاک کنیم در حالی که بخش‌هایی که فایل را مفید می‌کنند را نگه می‌داریم.

برای یک فایل رکوردهای کارمندی ۱۵,۰۰۰ ردیفی، یک مسئول انطباق نیاز دارد:

حذف:

  • نام کارمندان → توکن‌های PERSON_XXXX
  • SSNها → REDACTED
  • آدرس‌های ایمیل → REDACTED
  • شماره تلفن → REDACTED
  • آدرس‌های منزل → REDACTED

نگه داشتن:

  • کدهای بخش
  • عناوین شغلی (نقش‌های کلی فقط)
  • گروه‌های حقوقی (دسته‌های گسترده)
  • امتیازهای عملکردی (داده گروهی)
  • تاریخ‌های شروع (برای آمار سابقه)
  • کدهای مدیر (در صورت مستعار)

ابزاری که تفاوت بین «داده‌ای که مردم را نام می‌برد» و «داده‌ای که مشاغل را توصیف می‌کند» را می‌داند، فایلی می‌دهد که برای تحلیل منابع انسانی همچنان کار می‌کند — و قوانین کمینه‌سازی داده GDPR را برآورده می‌کند.

مثال واقعی: انتقال داده منابع انسانی M&A

یک شرکت خریدار رکوردهای کارمندان شرکت هدف را دریافت می‌کند: یک XLSX با ۱۵,۰۰۰ ردیف و ۴۰ ستون. فایل باید به یک شرکت منابع انسانی خارجی برای برنامه‌ریزی مزایا برود. GDPR می‌گوید فقط داده لازم برای آن وظیفه می‌تواند به اشتراک گذاشته شود.

قبل از پردازش: ۴۰ ستون با نام‌های کامل، SSNها، ایمیل‌ها، آدرس‌های منزل، مخاطبین اضطراری، و اطلاعات بانکی.

پس از پردازش با زمینه ستون:

  • ۱۲ ستون مستقیماً مردم را شناسایی می‌کنند (نام‌ها، SSNها، ایمیل‌ها، تلفن، آدرس‌ها، داده بانکی): با توکن‌های هماهنگ جایگزین شد
  • ۳ ستون به طور غیرمستقیم مردم را شناسایی می‌کنند (شناسه کارمند، کد مدیر، کد شغل): با توکن‌های مستعار که در فایل تطابق دارند جایگزین شد
  • ۲۵ ستون داده تجمیعی هستند (گروه حقوقی، بخش، سابقه، درجه): بدون تغییر باقی ماند

زمان: ۸ دقیقه برای ۶۰۰,۰۰۰ سلول

خروجی: همان طرح XLSX، ۴۰ ستون، ۱۵ ناشناس‌شده، ۲۵ بدون تغییر

گزارش حسابرسی: رکورد سطح سلول از هر اقدام با نوع نهاد، امتیاز اطمینان، و سیگنال ستون استفاده‌شده

شرکت منابع انسانی مجموعه داده کاملی برای کار خود دریافت می‌کند — بدون نام یا شناسه. رکورد انطباق دلیل دریافت می‌کند که فقط داده درست به اشتراک گذاشته شده.

این چالش منحصر به Excel نیست. هر فرمت فایل به شیوه خاص خود شکست می‌خورد. برای نگاهی در سراسر انواع فایل چگونگی تأثیر پراکندگی فرمت بر تشخیص PII را ببینید.

سه قانون ماده ۵ GDPR، یک فرآیند

ناشناس‌سازی ساختاریافته صفحه گسترده سه قانون را همزمان برآورده می‌کند.

کمینه‌سازی داده (ماده ۵(۱)(c)): فقط ستون‌هایی که برای وظیفه لازم هستند به گیرنده می‌روند. ستون‌های شناسایی پاک می‌شوند.

محدودیت ذخیره‌سازی (ماده ۵(۱)(e)): فایل اصلی برای نگهداری قانونی می‌ماند. یک کپی تمیز برای اشتراک‌گذاری ساخته می‌شود — با نیاز کوتاه‌تر یا بدون نیاز به نگهداری.

یکپارچگی و محرمانگی (ماده ۵(۱)(f)): هیچ داده شناسایی از منطقه کنترل خارج نمی‌شود. فقط کپی‌های تمیز به اشتراک گذاشته می‌شوند.

گزارش حسابرسی از فرآیند نیز دلیل ماده ۵(۲) شماست. نشان می‌دهد چگونه هر قانون برای هر فایل رعایت شد.

اگر تیم شما با DSARها یا صادرات داده بزرگ کار می‌کند، همان منطق در سطح API اعمال می‌شود. برای نحوه کار کمینه‌سازی داده GDPR در APIهای زمان واقعی ببینید.

برای تیم‌هایی که با حجم بالا در مواعد سخت کار می‌کنند، برای الگوهای گردش کار که اینجا هم کاربرد دارند پردازش دسته‌ای GDPR DSAR در مقیاس را ببینید.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.