به‌روزرسانی شده برای ۲۰۲۶

مشکل دقت ۲۲.۷٪

یک مطالعه ۲۰۲۴ Microsoft Presidio را روی پرونده‌های تجاری آزمایش کرد. Presidio یک ابزار PII متن‌باز است. تیم‌های حقوقی و گروه‌های بهداشتی به‌طور گسترده از آن استفاده می‌کنند.

مطالعه اندازه گرفت که Presidio چند بار درست بود. از تمام مواردی که به عنوان نام شخص علامت‌گذاری کرد، چند تا واقعاً نام شخص بودند؟

پاسخ ۲۲.۷٪ بود. حدود ۷۷ نشانه از هر ۱۰۰ اشتباه بود. مطالعه ۱۳,۵۳۶ نشانه کاذب در ۴,۴۳۴ پرونده نمونه شمارش کرد.

خطاها تصادفی نبودند. الگوهای واضحی داشتند:

ضمایر به عنوان اشخاص علامت‌گذاری شدند («I» در ابتدای جمله)
برچسب‌های کشتی به عنوان اشخاص علامت‌گذاری شدند («ASL Scorpio»)
برچسب‌های شرکت به عنوان اشخاص علامت‌گذاری شدند («Deloitte & Touche»)
اصطلاحات کشور به عنوان اشخاص علامت‌گذاری شدند («آرژانتین»، «سنگاپور»)

هیچ‌کدام از اینها موارد جانبی نادر نیستند. هر بار که یک مدل NLP عمومی با متن خاص دامنه روبه‌رو می‌شود ظاهر می‌شوند. مدل برای تفکیک آن‌ها ساخته نشده بود.

هزینه نشانه‌های کاذب

در کار حقوقی و بهداشتی، هر نشانه‌ای نیاز به پاسخ دارد. تیم‌ها با سه گزینه روبه‌رو می‌شوند. هر سه هزینه واقعی دارند.

گزینه ۱: یک انسان هر نشانه را بررسی کند. زمان وکیل و متخصص ساعتی ۲۰۰ تا ۸۰۰ دلار هزینه دارد. با دقت ۲۲.۷٪، حجم عظیم است. در مقیاس بزرگ امکان‌پذیر نیست. برای نحوه رشد هزینه‌های بررسی با حجم، اتوماسیون PII eDiscovery و کاهش هزینه بررسی حقوقی را ببینید.

گزینه ۲: بررسی را رد کنید و به خروجی اعتماد کنید. این هم پر از ریسک است. وقتی ۷۷٪ از موارد «حذف‌شده» حساس نیستند، ریسک قانونی ایجاد می‌کنید. دادگاه‌ها وکلا را به خاطر حذف بیش از حد جریمه کرده‌اند. برای موارد مستند، تحریم‌های حذف بیش از حد eDiscovery را ببینید.

گزینه ۳: آستانه امتیاز را بالا ببرید. Presidio به کاربران اجازه می‌دهد score_threshold را برای حذف نشانه‌های ضعیف تنظیم کنند. یک مطالعه DICOM 2024 این را در ۰.۷ — یک معیار نسبتاً بالا — آزمایش کرد. نتیجه: ۳۸ از ۳۹ تصویر DICOM هنوز نشانه‌های کاذب داشتند. آستانه‌ها کمک می‌کنند. علت ریشه‌ای را برطرف نمی‌کنند.

چرا NLP عمومی اینجا دچار مشکل می‌شود

شکاف Presidio از عدم تطابق بین داده‌های آموزشی و استفاده در دنیای واقعی می‌آید.

پرونده‌های حقوقی پر از اصطلاحات با حرف بزرگ هستند. نام پرونده‌ها، عناوین قوانین، و کدهای نمایش همه به نظر داده شخصی می‌رسند به یک مدل عمومی. آن‌ها را علامت‌گذاری می‌کند. اکثر داده شخصی نیستند.

پرونده‌های بهداشتی نام داروها، کدهای دستگاه، و فرم‌های مختصر بالینی را اضافه می‌کنند. «Pt.» به معنی بیمار است. «Dr.» به معنی دکتر است. اینها تشخیص موجودیت را به روش‌هایی که پیش‌بینی آن‌ها سخت است خطا می‌کنند.

پرونده‌های مالی کدهای محصول، رشته‌های موجودیت، و شناسه‌های حساب دارند که الگوهای سطحی را با پرونده‌های شخصی به اشتراک می‌گذارند.

تنظیم دقیق یک مدل روی داده دامنه کمک می‌کند. اما ساختن و به‌روز نگه داشتن آن زمان و تلاش می‌برد.

چگونه تشخیص ترکیبی این را برطرف می‌کند

مشکل نشانه کاذب یک راه‌حل روشن دارد. کار را بر اساس نوع داده تقسیم کنید.

قوانین الگو برای داده‌های ساختارمند. شماره‌های تأمین اجتماعی، شماره‌های تلفن، آدرس‌های ایمیل، و فرمت‌های شناسه از قوانین ثابت پیروی می‌کنند. یک رشته یا با الگو تطابق دارد و یک آزمون رقم بررسی را رد می‌کند، یا نه. صفر نشانه کاذب برای مجموعه‌های قانون معتبر.

مدل‌های زبانی برای متن آزاد. نام‌های اول و آخر، برچسب‌های شرکت، و مکان‌ها در نثر ساختار صلب ندارند. NLP آن‌ها را پیدا می‌کند وقتی قوانین نمی‌توانند. امتیازهای اطمینان و بررسی‌های زمینه نرخ نشانه کاذب را کاهش می‌دهند.

تنظیمات امتیاز به ازای نوع برای کنترل دقیق. تیم‌های حقوقی که نمی‌توانند ریسک حذف بیش از حد کنند، آستانه‌های بالایی برای تطابق‌های فازی تنظیم می‌کنند. تیم‌های تحقیقاتی که به بازیابی بالا نیاز دارند آستانه‌های پایین‌تر تنظیم می‌کنند. برای نحوه کارکرد سطوح امتیاز در عمل، تشخیص دودویی PII و امتیازدهی اطمینان برای انطباق را ببینید.

نتیجه خطاهای بسیار کمتری نسبت به پیش‌فرض‌های Presidio است. بازیابی قوی می‌ماند جایی که قوانین به‌تنهایی خیلی زیاد از دست می‌دهند.

برای تیم‌های حقوقی و بهداشتی، سوال کلیدی این نیست که آیا نشانه‌های کاذب وجود دارند. در سیستم‌های NLP همیشه وجود دارند. سوال این است که آیا ابزار به شما اجازه می‌دهد مبادله را تنظیم، اندازه‌گیری، و مستند کنید.

منابع

مقالات مرتبط

فنی

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

مثبت‌های کاذب: چرا حذف ML شکست می‌خورد

مشکل دقت ۲۲.۷٪

هزینه نشانه‌های کاذب

چرا NLP عمومی اینجا دچار مشکل می‌شود

چگونه تشخیص ترکیبی این را برطرف می‌کند

منابع

مقالات مرتبط

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

آماده‌اید داده‌های خود را محافظت کنید؟

مثبت‌های کاذب: چرا حذف ML شکست می‌خورد

مشکل دقت ۲۲.۷٪

هزینه نشانه‌های کاذب

چرا NLP عمومی اینجا دچار مشکل می‌شود

چگونه تشخیص ترکیبی این را برطرف می‌کند

منابع

مقالات مرتبط

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow