By · Last updated 2026-03-23

بازگشت به وبلاگفنی

مثبت‌های کاذب: چرا حذف ML شکست می‌خورد

یک معیار ۲۰۲۴ نشان داد Presidio در ۴,۴۳۴ نمونه ۱۳,۵۳۶ تشخیص نام مثبت کاذب تولید کرد — ضمایر، نام کشتی‌ها، و نام کشورها را به عنوان نام شخص علامت‌گذاری کرد.

March 23, 20268 دقیقه مطالعه
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

به‌روزرسانی شده برای ۲۰۲۶

مشکل دقت ۲۲.۷٪

یک مطالعه ۲۰۲۴ Microsoft Presidio را روی پرونده‌های تجاری آزمایش کرد. Presidio یک ابزار PII متن‌باز است. تیم‌های حقوقی و گروه‌های بهداشتی به‌طور گسترده از آن استفاده می‌کنند.

مطالعه اندازه گرفت که Presidio چند بار درست بود. از تمام مواردی که به عنوان نام شخص علامت‌گذاری کرد، چند تا واقعاً نام شخص بودند؟

پاسخ ۲۲.۷٪ بود. حدود ۷۷ نشانه از هر ۱۰۰ اشتباه بود. مطالعه ۱۳,۵۳۶ نشانه کاذب در ۴,۴۳۴ پرونده نمونه شمارش کرد.

خطاها تصادفی نبودند. الگوهای واضحی داشتند:

  • ضمایر به عنوان اشخاص علامت‌گذاری شدند («I» در ابتدای جمله)
  • برچسب‌های کشتی به عنوان اشخاص علامت‌گذاری شدند («ASL Scorpio»)
  • برچسب‌های شرکت به عنوان اشخاص علامت‌گذاری شدند («Deloitte & Touche»)
  • اصطلاحات کشور به عنوان اشخاص علامت‌گذاری شدند («آرژانتین»، «سنگاپور»)

هیچ‌کدام از اینها موارد جانبی نادر نیستند. هر بار که یک مدل NLP عمومی با متن خاص دامنه روبه‌رو می‌شود ظاهر می‌شوند. مدل برای تفکیک آن‌ها ساخته نشده بود.

هزینه نشانه‌های کاذب

در کار حقوقی و بهداشتی، هر نشانه‌ای نیاز به پاسخ دارد. تیم‌ها با سه گزینه روبه‌رو می‌شوند. هر سه هزینه واقعی دارند.

گزینه ۱: یک انسان هر نشانه را بررسی کند. زمان وکیل و متخصص ساعتی ۲۰۰ تا ۸۰۰ دلار هزینه دارد. با دقت ۲۲.۷٪، حجم عظیم است. در مقیاس بزرگ امکان‌پذیر نیست. برای نحوه رشد هزینه‌های بررسی با حجم، اتوماسیون PII eDiscovery و کاهش هزینه بررسی حقوقی را ببینید.

گزینه ۲: بررسی را رد کنید و به خروجی اعتماد کنید. این هم پر از ریسک است. وقتی ۷۷٪ از موارد «حذف‌شده» حساس نیستند، ریسک قانونی ایجاد می‌کنید. دادگاه‌ها وکلا را به خاطر حذف بیش از حد جریمه کرده‌اند. برای موارد مستند، تحریم‌های حذف بیش از حد eDiscovery را ببینید.

گزینه ۳: آستانه امتیاز را بالا ببرید. Presidio به کاربران اجازه می‌دهد score_threshold را برای حذف نشانه‌های ضعیف تنظیم کنند. یک مطالعه DICOM 2024 این را در ۰.۷ — یک معیار نسبتاً بالا — آزمایش کرد. نتیجه: ۳۸ از ۳۹ تصویر DICOM هنوز نشانه‌های کاذب داشتند. آستانه‌ها کمک می‌کنند. علت ریشه‌ای را برطرف نمی‌کنند.

چرا NLP عمومی اینجا دچار مشکل می‌شود

شکاف Presidio از عدم تطابق بین داده‌های آموزشی و استفاده در دنیای واقعی می‌آید.

پرونده‌های حقوقی پر از اصطلاحات با حرف بزرگ هستند. نام پرونده‌ها، عناوین قوانین، و کدهای نمایش همه به نظر داده شخصی می‌رسند به یک مدل عمومی. آن‌ها را علامت‌گذاری می‌کند. اکثر داده شخصی نیستند.

پرونده‌های بهداشتی نام داروها، کدهای دستگاه، و فرم‌های مختصر بالینی را اضافه می‌کنند. «Pt.» به معنی بیمار است. «Dr.» به معنی دکتر است. اینها تشخیص موجودیت را به روش‌هایی که پیش‌بینی آن‌ها سخت است خطا می‌کنند.

پرونده‌های مالی کدهای محصول، رشته‌های موجودیت، و شناسه‌های حساب دارند که الگوهای سطحی را با پرونده‌های شخصی به اشتراک می‌گذارند.

تنظیم دقیق یک مدل روی داده دامنه کمک می‌کند. اما ساختن و به‌روز نگه داشتن آن زمان و تلاش می‌برد.

چگونه تشخیص ترکیبی این را برطرف می‌کند

مشکل نشانه کاذب یک راه‌حل روشن دارد. کار را بر اساس نوع داده تقسیم کنید.

قوانین الگو برای داده‌های ساختارمند. شماره‌های تأمین اجتماعی، شماره‌های تلفن، آدرس‌های ایمیل، و فرمت‌های شناسه از قوانین ثابت پیروی می‌کنند. یک رشته یا با الگو تطابق دارد و یک آزمون رقم بررسی را رد می‌کند، یا نه. صفر نشانه کاذب برای مجموعه‌های قانون معتبر.

مدل‌های زبانی برای متن آزاد. نام‌های اول و آخر، برچسب‌های شرکت، و مکان‌ها در نثر ساختار صلب ندارند. NLP آن‌ها را پیدا می‌کند وقتی قوانین نمی‌توانند. امتیازهای اطمینان و بررسی‌های زمینه نرخ نشانه کاذب را کاهش می‌دهند.

تنظیمات امتیاز به ازای نوع برای کنترل دقیق. تیم‌های حقوقی که نمی‌توانند ریسک حذف بیش از حد کنند، آستانه‌های بالایی برای تطابق‌های فازی تنظیم می‌کنند. تیم‌های تحقیقاتی که به بازیابی بالا نیاز دارند آستانه‌های پایین‌تر تنظیم می‌کنند. برای نحوه کارکرد سطوح امتیاز در عمل، تشخیص دودویی PII و امتیازدهی اطمینان برای انطباق را ببینید.

نتیجه خطاهای بسیار کمتری نسبت به پیش‌فرض‌های Presidio است. بازیابی قوی می‌ماند جایی که قوانین به‌تنهایی خیلی زیاد از دست می‌دهند.

برای تیم‌های حقوقی و بهداشتی، سوال کلیدی این نیست که آیا نشانه‌های کاذب وجود دارند. در سیستم‌های NLP همیشه وجود دارند. سوال این است که آیا ابزار به شما اجازه می‌دهد مبادله را تنظیم، اندازه‌گیری، و مستند کنید.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.