بهروزرسانی شده برای ۲۰۲۶
مشکل دقت ۲۲.۷٪
یک مطالعه ۲۰۲۴ Microsoft Presidio را روی پروندههای تجاری آزمایش کرد. Presidio یک ابزار PII متنباز است. تیمهای حقوقی و گروههای بهداشتی بهطور گسترده از آن استفاده میکنند.
مطالعه اندازه گرفت که Presidio چند بار درست بود. از تمام مواردی که به عنوان نام شخص علامتگذاری کرد، چند تا واقعاً نام شخص بودند؟
پاسخ ۲۲.۷٪ بود. حدود ۷۷ نشانه از هر ۱۰۰ اشتباه بود. مطالعه ۱۳,۵۳۶ نشانه کاذب در ۴,۴۳۴ پرونده نمونه شمارش کرد.
خطاها تصادفی نبودند. الگوهای واضحی داشتند:
- ضمایر به عنوان اشخاص علامتگذاری شدند («I» در ابتدای جمله)
- برچسبهای کشتی به عنوان اشخاص علامتگذاری شدند («ASL Scorpio»)
- برچسبهای شرکت به عنوان اشخاص علامتگذاری شدند («Deloitte & Touche»)
- اصطلاحات کشور به عنوان اشخاص علامتگذاری شدند («آرژانتین»، «سنگاپور»)
هیچکدام از اینها موارد جانبی نادر نیستند. هر بار که یک مدل NLP عمومی با متن خاص دامنه روبهرو میشود ظاهر میشوند. مدل برای تفکیک آنها ساخته نشده بود.
هزینه نشانههای کاذب
در کار حقوقی و بهداشتی، هر نشانهای نیاز به پاسخ دارد. تیمها با سه گزینه روبهرو میشوند. هر سه هزینه واقعی دارند.
گزینه ۱: یک انسان هر نشانه را بررسی کند. زمان وکیل و متخصص ساعتی ۲۰۰ تا ۸۰۰ دلار هزینه دارد. با دقت ۲۲.۷٪، حجم عظیم است. در مقیاس بزرگ امکانپذیر نیست. برای نحوه رشد هزینههای بررسی با حجم، اتوماسیون PII eDiscovery و کاهش هزینه بررسی حقوقی را ببینید.
گزینه ۲: بررسی را رد کنید و به خروجی اعتماد کنید. این هم پر از ریسک است. وقتی ۷۷٪ از موارد «حذفشده» حساس نیستند، ریسک قانونی ایجاد میکنید. دادگاهها وکلا را به خاطر حذف بیش از حد جریمه کردهاند. برای موارد مستند، تحریمهای حذف بیش از حد eDiscovery را ببینید.
گزینه ۳: آستانه امتیاز را بالا ببرید. Presidio به کاربران اجازه میدهد score_threshold را برای حذف نشانههای ضعیف تنظیم کنند. یک مطالعه DICOM 2024 این را در ۰.۷ — یک معیار نسبتاً بالا — آزمایش کرد. نتیجه: ۳۸ از ۳۹ تصویر DICOM هنوز نشانههای کاذب داشتند. آستانهها کمک میکنند. علت ریشهای را برطرف نمیکنند.
چرا NLP عمومی اینجا دچار مشکل میشود
شکاف Presidio از عدم تطابق بین دادههای آموزشی و استفاده در دنیای واقعی میآید.
پروندههای حقوقی پر از اصطلاحات با حرف بزرگ هستند. نام پروندهها، عناوین قوانین، و کدهای نمایش همه به نظر داده شخصی میرسند به یک مدل عمومی. آنها را علامتگذاری میکند. اکثر داده شخصی نیستند.
پروندههای بهداشتی نام داروها، کدهای دستگاه، و فرمهای مختصر بالینی را اضافه میکنند. «Pt.» به معنی بیمار است. «Dr.» به معنی دکتر است. اینها تشخیص موجودیت را به روشهایی که پیشبینی آنها سخت است خطا میکنند.
پروندههای مالی کدهای محصول، رشتههای موجودیت، و شناسههای حساب دارند که الگوهای سطحی را با پروندههای شخصی به اشتراک میگذارند.
تنظیم دقیق یک مدل روی داده دامنه کمک میکند. اما ساختن و بهروز نگه داشتن آن زمان و تلاش میبرد.
چگونه تشخیص ترکیبی این را برطرف میکند
مشکل نشانه کاذب یک راهحل روشن دارد. کار را بر اساس نوع داده تقسیم کنید.
قوانین الگو برای دادههای ساختارمند. شمارههای تأمین اجتماعی، شمارههای تلفن، آدرسهای ایمیل، و فرمتهای شناسه از قوانین ثابت پیروی میکنند. یک رشته یا با الگو تطابق دارد و یک آزمون رقم بررسی را رد میکند، یا نه. صفر نشانه کاذب برای مجموعههای قانون معتبر.
مدلهای زبانی برای متن آزاد. نامهای اول و آخر، برچسبهای شرکت، و مکانها در نثر ساختار صلب ندارند. NLP آنها را پیدا میکند وقتی قوانین نمیتوانند. امتیازهای اطمینان و بررسیهای زمینه نرخ نشانه کاذب را کاهش میدهند.
تنظیمات امتیاز به ازای نوع برای کنترل دقیق. تیمهای حقوقی که نمیتوانند ریسک حذف بیش از حد کنند، آستانههای بالایی برای تطابقهای فازی تنظیم میکنند. تیمهای تحقیقاتی که به بازیابی بالا نیاز دارند آستانههای پایینتر تنظیم میکنند. برای نحوه کارکرد سطوح امتیاز در عمل، تشخیص دودویی PII و امتیازدهی اطمینان برای انطباق را ببینید.
نتیجه خطاهای بسیار کمتری نسبت به پیشفرضهای Presidio است. بازیابی قوی میماند جایی که قوانین بهتنهایی خیلی زیاد از دست میدهند.
برای تیمهای حقوقی و بهداشتی، سوال کلیدی این نیست که آیا نشانههای کاذب وجود دارند. در سیستمهای NLP همیشه وجود دارند. سوال این است که آیا ابزار به شما اجازه میدهد مبادله را تنظیم، اندازهگیری، و مستند کنید.