By · Last updated 2026-06-05

بازگشت به وبلاگفنی

چرا تشخیص باینری PII در انطباق شکست می‌خورد

پرچم‌گذاری شناسایی‌شده/شناسایی‌نشده برای زمینه‌های انطباق که به قضاوت انسانی نیاز دارند ناکافی است. در اینجا چرا امتیازدهی اطمینان ناشناس‌سازی PII را از یک حدس باینری به یک کنترل انطباق قابل حسابرسی تبدیل می‌کند.

June 5, 20268 دقیقه مطالعه
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

چرا تشخیص باینری PII در انطباق شکست می‌خورد

به‌روزرسانی برای ۲۰۲۶

هر ابزار PII با یک مشکل سخت روبرو است. همان رشته می‌تواند در یک جا داده شخصی باشد و در جای دیگر نباشد.

«جان» در یک فایل مشتری یک موضوع داده است. «جان» در یک مقاله تاریخی درباره جان اف. کندی نیست. یک عدد نه رقمی در یک پرونده پزشکی یک کد HIPAA است. همان نه رقم در یک کد محصول نیست.

یک پرچم بله/خیر نمی‌تواند این را مدیریت کند. دو انتخاب بد را اجبار می‌کند: تحریر تمام رشته‌هایی که ممکن است PII باشند، یا فقط تحریر موارد قطعی. هر دو در قانون شکست می‌خورند، جایی که هر تصمیم باید روشن و مستند باشد.

یک امتیاز بر موجودیت از ۰ تا ۱۰۰ یک مسیر سوم ارائه می‌دهد. قوانین طبقه‌بندی‌شده، صف‌های بررسی انسانی و سوابق حسابرسی کامل را هدایت می‌کند.

محدودیت پرچم‌های بله/خیر

زمینه معنای داده را تغییر می‌دهد. دو فایل می‌توانند همان رشته را داشته باشند. در یکی داده شخصی است. در دیگری نیست. یک پرچم نمی‌تواند آن را نشان دهد. یک عدد می‌تواند.

با تنها یک پرچم، دو گزینه شما بد هستند. تحریر بیش از حد ارزش سند را می‌کشد. تحریر ناقص خطر حقوقی ایجاد می‌کند. هیچ‌کدام در دادگاه دوام نمی‌آورند.

کشف حقوقی: چرا امتیازها ضروری هستند

کشف حقوقی قوانینی دارد که تشخیص امتیازی را ضروری می‌کند.

مشکل تحریر بیش از حد. تحریر نام‌های وکیل یا استنادهای دادگاه به شواهد آسیب می‌زند. دادگاه‌ها وکلا را برای تحریر بیش از حد جریمه کرده‌اند. همان رویه حقوقی که تحریر ناقص را پوشش می‌دهد این را هم پوشش می‌دهد.

مشکل تحریر ناقص. از دست دادن PII واقعی خطر ایجاد می‌کند. این شامل نقض حریم خصوصی موکل، شکایات صنفی و در برخی جاها اتهامات جنایی می‌شود.

نیاز به توضیح هر تصمیم. وقتی دادگاه می‌پرسد چرا یک آیتم تحریر شد، وکلا باید آن را توضیح دهند. «ابزار آن را پرچم‌گذاری کرد» کافی نیست. «ابزار این را در ۹۴٪ به عنوان شماره تأمین اجتماعی امتیاز داد. قانون ما به طور خودکار بالای ۸۵٪ تحریر می‌کند.» این کافی است.

یک پرچم بله/خیر نمی‌تواند آن پاسخ را بدهد. یک ابزار امتیازدهی با قوانین تعریف‌شده می‌تواند. همچنین ببینید: دفاع از تحریرها: امتیازهای هوش مصنوعی در دادگاه.

یک سیستم بررسی سه‌طبقه‌ای

مؤثرترین تنظیم از سه طبقه بر اساس امتیاز موجودیت استفاده می‌کند.

طبقه ۱ — خودکار (بالای ۸۵٪):

  • آیتم‌هایی که با فرمت‌های اطمینان بالا مطابقت دارند (SSN، IBAN، MRN)
  • بدون مرحله انسانی به طور خودکار تحریر می‌شوند
  • لاگ نوع موجودیت، امتیاز، روش و زمان را ثبت می‌کند
  • مثال: «۵۷۱-۴۴-۹۲۸۳» در ۹۷٪ به عنوان SSN — به طور خودکار تحریر شد

طبقه ۲ — بررسی انسانی (۵۰–۸۵٪):

  • آیتم‌هایی که ممکن است PII باشند اما نیاز به قضاوت دارند
  • برای پذیرش، رد یا طبقه‌بندی مجدد به بازبین فرستاده می‌شوند
  • لاگ نوع موجودیت، امتیاز، شناسه بازبین، تصمیم و زمان را ثبت می‌کند
  • مثال: «جان دیویس» در یک سند فنی در ۶۷٪ — بازبین تأیید می‌کند نام است — تحریر شد

طبقه ۳ — پیشنهاد فقط (زیر ۵۰٪):

  • آیتم‌های با اطمینان پایین به عنوان نکات نشان داده می‌شوند
  • به طور خودکار تحریر نمی‌شوند؛ بازبین ممکن است اقدام کند یا رد کند
  • لاگ نوع موجودیت، امتیاز و انتخاب بازبین را ثبت می‌کند
  • مثال: «اسمیت» در یک سند محصول در ۴۲٪ — بازبین پیدا می‌کند نام شرکت است — تحریر نشد

فقط طبقه ۲ به کار انسانی نیاز دارد. هر سه طبقه سوابق حسابرسی تولید می‌کنند.

چطور امتیازها ساخته می‌شوند

ابزارهای PII سیگنال‌ها را ترکیب می‌کنند تا یک عدد برای هر موجودیت تولید کنند.

الگوهای Regex. یک تطابق دقیق فرمت SSN امتیاز پایه بالایی دریافت می‌کند. یک تطابق جزئی امتیاز پایین‌تری دریافت می‌کند.

خروجی مدل. مدل‌های موجودیت مسمی یک احتمال به هر کلاس اختصاص می‌دهند. امتیاز ۰.۹۳ برای PERSON یک نتیجه با اطمینان بالا می‌دهد.

سیگنال‌های زمینه. متن اطراف موجودیت امتیاز را تنظیم می‌کند. «SSN من ۵۷۱-۴۴-۹۲۸۳ است» آن را بالا می‌برد. «کد محصول ۵۷۱-۴۴-۹۲۸۳» آن را پایین می‌آورد.

قوانین گروه. سیستم‌ها سیگنال‌های regex، مدل و زمینه را با وزن‌های تعریف‌شده ترکیب می‌کنند. عدد نهایی منعکس‌کننده تمام شواهد است.

آن عدد هر تصمیم آستانه در جریان کاری شما را هدایت می‌کند. برای اطلاعات بیشتر درباره مثبت‌های کاذب از ابزارهای بله/خیر، ببینید: مالیات مثبت کاذب روی ابزارهای PII.

ادعاهای بیمه: یک مثال واقعی

فایل‌های بیمه PII واضح — نام بیمه‌گذار، آدرس، SSN — را با داده وابسته به زمینه ترکیب می‌کنند: نام شاهدان، نام‌های شرکت، امضای کارشناس.

یک ابزار بله/خیر یا همه نام‌ها را تحریر می‌کند (اشتباه برای شرکت‌ها) یا نام‌های شاهد را از دست می‌دهد (یک خطر). یک ابزار امتیازی هر آیتم را به تنهایی مدیریت می‌کند:

  • SSN با برچسب «SSN بیمه‌گذار» در ۹۶٪ — به طور خودکار تحریر شد
  • نام بیمه‌گذار با علامت PERSON در ۹۱٪ — به طور خودکار تحریر شد
  • شرکت پیمانکار با علامت ORG در ۷۸٪ — بررسی شد — بازبین تحریر را رد کرد
  • نام شاهد با علامت PERSON در ۸۲٪ — بررسی شد — بازبین پذیرفت
  • نام کارشناس با علامت PERSON در ۷۱٪ — بررسی شد — بازبین پذیرفت (داده شخص ثالث)

هر تصمیم یک مبنای عددی دارد. ردیابی حسابرسی کامل است.

ساختن سوابق انطباق

برای ماده ۵(۱)(و) GDPR و قانون امنیت HIPAA، ابزارهای امتیازی به تنهایی سوابق تولید می‌کنند.

سوابق حسابرسی سطح موجودیت نوع موجودیت، امتیاز، نوع تصمیم (خودکار یا دستی)، شناسه بازبین و زمان را ضبط می‌کنند. اینها به عنوان CSV برای استعلام‌های مقامات داده صادر می‌شوند.

سوابق آستانه تنظیمات جاری و هر تغییر را مستند می‌کنند. هر تغییر شامل اینکه چه کسی آن را انجام داده، چه زمانی و چرا است. این یک سیاست مدیریت‌شده و آگاهانه را نشان می‌دهد.

گزارش‌های آماری نرخ‌های تشخیص بر حسب نوع موجودیت، نرخ‌های بررسی طبقه ۲ و نرخ‌های لغو را پوشش می‌دهند. به مقامات داده‌ای پاسخ می‌دهند که می‌پرسند «کنترل‌های خود را به ما نشان دهید».

برای راهنمایی ردیابی حسابرسی HIPAA، ببینید: تحریر قابل توضیح: حسابرسی‌های HIPAA.

یک پرچم بله/خیر یک حدس است. یک امتیاز شاهد است.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.