شکست حذف اطلاعات در دسامبر ۲۰۲۵

به‌روز شده برای ۲۰۲۶

وزارت دادگستری آمریکا پرونده‌های اپستین را در دسامبر ۲۰۲۵ منتشر کرد. پوشش رسانه‌ای به سرعت از محتوای پرونده‌ها به نحوه حذف اطلاعات تغییر مسیر داد. این پوشش نشان داد که این حذف‌ها به چه سادگی قابل دور زدن هستند.

روش ساده بود. محتوای «حذف‌شده» در فایل‌های PDF با برجسته‌سازی سیاه پوشیده شده بود. اما کلمات در لایه متنی PDF باقی می‌ماندند. کافی بود کادر سیاه را در یک ویرایشگر متن کپی کنی تا کلمات اصلی ظاهر شوند. پوشش بصری حذف واقعی نبود. داده‌های حساس هرگز پاک نشده بودند.

این نقص جدید نبود. در پرونده Anthony Pellicano در سال ۲۰۰۷، داده‌های حساس از طریق حذف نادرست در اسناد حقوقی فاش شده بودند. همین شکست سال‌ها در اسناد دادگاهی و گزارش‌های دولتی تکرار شده بود. اما پرونده‌های اپستین این شکست را در زمان واقعی در برابر دهها میلیون نفر آشکار کرد.

برای اطلاعات بیشتر درباره شناسایی هویت در متون حقوقی، به مرور انطباق ما مراجعه کنید.

پوشش بصری در برابر حذف واقعی

چرا این اتفاق بارها تکرار می‌شود؟ پاسخ در یک شکاف فنی کلیدی نهفته است. تفاوتی اساسی بین پوشش بصری و حذف واقعی وجود دارد.

پوشش بصری یک عنصر را روی کلمات قرار می‌دهد. آن کلمات را از فایل حذف نمی‌کند. همه این روش‌ها در این دسته قرار دارند: برجسته‌سازی سیاه پس‌زمینه را سیاه می‌کند؛ کلمات سفید روی صفحه سفید رنگ را تطبیق می‌دهد؛ یک مستطیل سیاه روی متن دید را می‌پوشاند؛ پوشش حاشیه‌نویسی PDF یک لایه کدر روی آن اضافه می‌کند؛ پوشش تصویری یک تصویر سیاه روی کلمات قرار می‌دهد.

در همه این موارد، کلمات اصلی در فایل باقی می‌مانند. می‌توان آن‌ها را با کپی کردن ناحیه یا برداشتن پوشش پیدا کرد. یک فرد آشنا با فناوری می‌تواند فایل خام را نیز اسکن کند.

حذف واقعی کلمات را برای همیشه از فایل پاک می‌کند. محتوا پنهان نشده — رفته است. چیزی برای پیدا کردن باقی نمی‌ماند.

سوال کلیدی برای هر فایلی که ارسال می‌کنید این است: وقتی کسی این فایل را بررسی کند، آیا کلمات اصلی را پیدا خواهد کرد؟ با پوشش بصری، پاسخ بله است. به واژه‌نامه ما برای تعاریف اصطلاحات حذف مراجعه کنید.

مشکل اسناد Word

همین شکست در Microsoft Word نیز وجود دارد. استفاده از برجسته‌سازی سیاه یا کادرهای کدر برای «حذف» یک فایل Word، کلمات اصلی را در XML سند باقی می‌گذارد.

این موضوع مهم است چون Word فرمت اصلی برای نامه‌های حقوقی، قراردادها، پرونده‌های منابع انسانی، و بررسی‌های داخلی است. سازمان‌هایی که از برجسته‌سازی استفاده می‌کنند، در طول تاریخ خود اسنادی با داده‌های قابل کشف ارسال کرده‌اند.

۷۱٪ از تیم‌های حقوقی از ابزارهای هوش مصنوعی استفاده می‌کنند علی‌رغم نگرانی‌های ذخیره‌سازی اطلاعات (نظرسنجی ACC 2025). با ورود ابزارهای هوش مصنوعی به کار با اسناد، خطر کشف شکست‌های حذف گذشته افزایش می‌یابد. هوش مصنوعی که فایل‌های شما را می‌خواند ممکن است کلماتی را در بخش‌های «حذف‌شده» بیابد که هرگز واقعاً پاک نشده‌اند.

شکست‌های برجسته حذف اطلاعات

پرونده‌های اپستین اولین مورد پرمخاطب از این شکست نبودند.

پرونده Anthony Pellicano (2007) داده‌های حساسی را داشت که از طریق اسناد دارای حذف نادرست در دادگاه فدرال فاش شدند. [VERIFIED-EXTERNAL]

اسناد NSA که از طریق درخواست‌های FOIA منتشر شده‌اند، بارها کلمات قابل خواندن زیر کادرهای سیاه داشته‌اند. محققان امنیتی این موضوع را در انتشارات امنیت ملی مستند کرده‌اند. [VERIFIED-EXTERNAL]

پرونده‌های دعاوی شرکتی اغلب محتوای قابل خواندن دارند وقتی طرفین از لایه‌های حاشیه‌نویسی PDF به جای حذف واقعی استفاده می‌کنند. [VERIFIED]

این الگو یک شکاف اساسی را نشان می‌دهد. تیم‌های حقوقی حذف را یک عمل بصری می‌دانند. اما فرمت‌های PDF و Word داده ساختاریافته‌ای دارند که صرف‌نظر از آنچه روی صفحه می‌بینید، وجود دارد.

حذف واقعی به چه چیزی نیاز دارد

برای اینکه یک فایل واقعاً حذف‌شده باشد، کلمات باید پاک و جایگزین شوند. یک متخصص ماهر نباید بتواند آن‌ها را بازیابی کند.

در فایل‌های PDF، حذف واقعی چهار چیز می‌خواهد. اول، PDF را صاف کنید تا همه لایه‌های ویرایش‌پذیر حذف شوند. دوم، محتوا را در سطح جریان محتوا با کادرهای سیاه جایگزین کنید. سوم، ابرداده‌ای که ممکن است کلمات اصلی را نگه‌داشته باشد حذف کنید. چهارم، فونت‌های جاسازی‌شده که ممکن است امکان بازیابی را فراهم کنند پاک کنید.

در فایل‌های Word، حذف واقعی سه چیز می‌خواهد. اول، هر نمونه از محتوای هدف را — در تغییرات ردیابی‌شده، نظرات، ابرداده، و تاریخچه بازبینی — پیدا کنید. دوم، محتوا را جایگزین کنید، نه صرفاً بصری پوشش دهید. سوم، قالب را بدون باقی‌گذاشتن آثار حفظ کنید.

کلمه کلیدی جایگزینی است. محتوای اصلی باید با چیز دیگری جایگزین شود، نه زیر چیز دیگری پنهان شود.

سربرگ‌ها، پاورقی‌ها، و مناطق پنهان

حذف اطلاعات در اسناد حقوقی لایه‌های بیشتری از متن اصلی دارد. داده‌های حساس اغلب در مناطقی ظاهر می‌شوند که ابزارهای بصری کاملاً از دست می‌دهند.

سربرگ‌ها و پاورقی‌ها اغلب نام پرونده‌ها، شناسه‌های موکل، و شماره‌های سند را دارند. پوشاندن متن اصلی قرارداد در حالی که «محرمانه — درباره TechCorp» در سربرگ باقی می‌ماند، هدف حذف را نقض می‌کند.

نظرات و تغییرات ردیابی‌شده یک منبع رایج افشای ناخواسته هستند. یک بازبین که نظر می‌دهد «یادداشت John Smith را ببینید» آن را در فایل می‌گذارد. حتی بعد از اینکه بند پوشیده شده، باقی می‌ماند.

ویژگی‌های سند و ابرداده نام نویسندگان و تاریخچه بازبینی را دارند. اینها می‌توانند منشأ سند را حتی وقتی متن اصلی سیاه شده آشکار کنند.

تاریخچه بازبینی در Word نسخه‌های قبلی محتوای ویرایش‌شده را نگه می‌دارد. فایلی که یک‌بار گفته «آدرس خانه خواهان ۱۲۳ خیابان اصلی است» آن نسخه را نگه می‌دارد — مگر اینکه پاک کنید.

ساختن یک فرآیند منطبق

با توجه به این حالت‌های شکست، یک فرآیند حذف سالم به چهار مرحله نیاز دارد.

۱. از یکپارچه‌سازی بومی Word برای فایل‌های Word استفاده کنید. حذف درون مدل شیء Word، محتوا را مستقیماً در فایل جایگزین می‌کند. این از مشکل پوشش بصری اجتناب می‌کند. تبدیل ابتدا به PDF ریسک اضافه می‌کند و ممکن است نظرات و تاریخچه بازبینی را از دست بدهد.

۲. تمام مناطق سند را پردازش کنید. یک فرآیند منطبق باید سربرگ‌ها، پاورقی‌ها، پانوشت‌ها، یادداشت‌های پایانی، نظرات، تغییرات ردیابی‌شده، و ویژگی‌های سند را پوشش دهد — نه فقط متن اصلی.

۳. خروجی را تأیید کنید. بعد از حذف، سعی کنید محتوا را بازیابی کنید. مناطق حذف‌شده را کپی-پیست کنید. XML سند را بررسی کنید. تغییرات ردیابی‌شده و تاریخچه بازبینی را مرور کنید. اگر محتوای اصلی جایی ظاهر شد، حذف ناقص است.

۴. یک مسیر حسابرسی حفظ کنید. برای تولیدهای حقوقی، ثبت کنید چه چیزی حذف شد، به چه روشی، و توسط چه کسی. اگر اختلافی درباره حمایت محرمانه پیش آید اهمیت دارد. اطلاعات بیشتر در صفحه امنیت و انطباق ما.

درس‌هایی از پرونده‌های اپستین

شکست پرونده‌های اپستین یک درس عمومی بود. نشان داد چه اتفاقی می‌افتد وقتی پوشش بصری با حذف واقعی اشتباه گرفته می‌شود.

هر تیم حقوقی و متخصص انطباق که این داستان را دنبال کرد باید دو سوال بپرسد. اول، در تولیدهای اسناد گذشته ما چه چیزی هست که به همین شکل قابل بازیابی است؟ دوم، آیا فرآیند فعلی ما واقعاً محتوا را حذف می‌کند یا صرفاً آن را می‌پوشاند؟

پاسخ‌ها مشخص می‌کنند چقدر واقعاً در معرض خطر هستید — نه صرف وجود یک سیاست حذف.

افزونه Office سایت anonym.legal حذف واقعی PII را درون فایل‌های Word انجام می‌دهد. محتوا را مستقیماً در ساختار سند جایگزین می‌کند، نه روی آن پوشش بصری اضافه. سربرگ‌ها، پاورقی‌ها، پانوشت‌ها، نظرات، و تغییرات ردیابی‌شده همه پردازش می‌شوند. نتیجه فایلی است که داده‌های اصلی در آن غایب هستند، نه پنهان. بیشتر بدانید.

منابع

مقالات مرتبط

فناوری حقوقی

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

پرونده‌های اپستین: برجسته‌کردن با رنگ، حذف نیست

شکست حذف اطلاعات در دسامبر ۲۰۲۵

پوشش بصری در برابر حذف واقعی

مشکل اسناد Word

شکست‌های برجسته حذف اطلاعات

حذف واقعی به چه چیزی نیاز دارد

سربرگ‌ها، پاورقی‌ها، و مناطق پنهان

ساختن یک فرآیند منطبق

درس‌هایی از پرونده‌های اپستین

منابع

مقالات مرتبط

Legal PII: Privilege Detection

PII Detection Cuts E-Discovery Costs

Anonymous HR Surveys with Reversible PII

آماده‌اید داده‌های خود را محافظت کنید؟

پرونده‌های اپستین: برجسته‌کردن با رنگ، حذف نیست

شکست حذف اطلاعات در دسامبر ۲۰۲۵

پوشش بصری در برابر حذف واقعی

مشکل اسناد Word

شکست‌های برجسته حذف اطلاعات

حذف واقعی به چه چیزی نیاز دارد

سربرگ‌ها، پاورقی‌ها، و مناطق پنهان

ساختن یک فرآیند منطبق

درس‌هایی از پرونده‌های اپستین

منابع

مقالات مرتبط

Legal PII: Privilege Detection

PII Detection Cuts E-Discovery Costs

Anonymous HR Surveys with Reversible PII

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow