مشکل نرخ خطای ۵۰ درصدی

یک بررسی ۲۰۲۵ (arXiv:2509.14464) ابزارهای مبتنی بر مدل‌های زبانی بزرگ را بر روی پرونده‌های بالینی آزمود. نتایج نگران‌کننده بود. این ابزارها بیش از ۵۰ درصد از اطلاعات بهداشتی محافظت‌شده بالینی را در اسناد چندزبانه از دست دادند. دلیل آن ساده است. مدل‌های زبانی بزرگ برای تولید متن ساخته شده‌اند. برای وظیفه تشخیص با فراخوانی بالا که HIPAA طلب می‌کند، طراحی نشده‌اند.

روش Safe Harbor قانون HIPAA ۱۸ نوع شناسه محافظت‌شده فهرست می‌کند: نام‌ها، تاریخ‌ها، شماره تلفن، شماره تأمین اجتماعی، شماره پرونده پزشکی (MRN)، شناسه برنامه بیمه، شناسه دستگاه، و آدرس IP. هر کدام به منطق تشخیصی خاص خود نیاز دارند.

یادداشت‌های بالینی این کار را سخت‌تر می‌کنند. به این مثال توجه کنید: «Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG.» یک جمله. پنج شناسه محافظت‌شده. بیشتر آن‌ها به صورت مخفف نوشته شده‌اند. مدلی که برای درک معنای بالینی تنظیم شده، اغلب در تشخیص این شناسه‌ها شکست می‌خورد.

آنچه مدل‌های زبانی بزرگ از دست می‌دهند و چرا

ابزارهای مبتنی بر مدل‌های زبانی بزرگ در پرونده‌های بالینی به شیوه‌های مشخصی شکست می‌خورند.

شناسه‌های مخفف: یادداشت‌های بالینی از اختصارات استفاده می‌کنند. DOB، MRN، و Pt. اشکال رایج هستند. مدلی که برای فهم معنای بالینی تنظیم شده ممکن است «Pt. John D.» را به عنوان نام علامت‌گذاری نکند. استخراج داده‌های حساس به هدف متفاوتی نیاز دارد.

تاریخ‌های وابسته به زمینه: نه همه تاریخ‌ها خطر یکسانی دارند. «سن ۶۷» یک نشانگر غیرمستقیم است. «DOB 4/12/67» یک شناسه محافظت‌شده مستقیم است. «03/15/24» به عنوان تاریخ پذیرش هم محافظت‌شده است. تطبیق الگو به تنهایی کافی نیست.

فرمت‌های غیرآمریکایی: Cyberhaven (Q4 2025) دریافت که ۳۴.۸ درصد از تمام ورودی‌های ChatGPT حاوی اطلاعات تجاری محرمانه هستند، از جمله اطلاعات شناسایی شخصی چندزبانه. در حوزه سلامت، این به معنای شناسه‌های پرونده غیرآمریکایی، فرمت‌های تاریخ منطقه‌ای، و انواع شناسه بهداشتی محلی است. ابزارهای آموزش‌دیده بر داده‌های آمریکایی به‌طور مستمر این موارد را از دست می‌دهند.

شناسه‌های اختصاصی بیمارستان: بیمارستان‌ها فرمت‌های MRN، شناسه کارکنان، و کدهای مکان اختصاصی خود را دارند. این موارد در داده‌های آموزشی NER استاندارد وجود ندارند. ابزاری که از پشتیبانی موجودیت‌های سفارشی بهره‌مند نیست، آن‌ها را نمی‌یابد.

خطر مجموعه داده‌های پژوهشی

یک بیمارستان که مجموعه داده پژوهشی از ۵۰۰٬۰۰۰ یادداشت می‌سازد، با چالش انطباق واقعی روبه‌روست. HIPAA برای داده‌های شناسایی‌زدایی‌شده معیار «خطر بسیار کم» را تعریف می‌کند. ابزاری که نیمی از تمام شناسه‌های محافظت‌شده را از دست می‌دهد نمی‌تواند این معیار را برآورده سازد.

بایگانی‌های پژوهشی داده‌های تمیز ندارند. یادداشت‌ها بخش‌های مختلف، دوره‌های زمانی متفاوت، و گاهی زبان‌های گوناگون را در بر می‌گیرند. ابزاری که بر روی داده‌های صورت‌حساب کار می‌کند ممکن است در یادداشت‌های روایی شکست بخورد. داده‌های حساس در متن آزاد هیچ برچسب فیلدی ندارند.

تأیید کمیته اخلاق (IRB) الزامات بیشتری اضافه می‌کند. مؤسسات باید روش مورد استفاده، انواع شناسه‌های حذف‌شده، و بررسی‌های انجام‌شده را مستند کنند. ابزاری که نیمی از تمام پرونده‌ها را از دست می‌دهد نمی‌تواند این الزامات را برآورده سازد.

برای آشنایی با نحوه پشتیبانی anonym.legal از کارهای HIPAA، نمای کلی انطباق و رویه‌های امنیتی ما را ببینید.

راه‌حل سه‌لایه

بررسی ۲۰۲۵ یک الگوی روشن یافت. ابزارهایی با پایین‌ترین نرخ خطا از سه لایه تشخیصی استفاده می‌کردند.

لایه اول — regex: شناسه‌های ساختاریافته را می‌یابد. شماره تأمین اجتماعی، MRN، شماره تلفن، شناسه برنامه بیمه. بر روی فرمت‌های ثابت قابل اعتماد است.

لایه دوم — NER: از مدل‌های ترانسفورمر استفاده می‌کند. نام‌ها، تاریخ‌ها، و داده‌های حساس را در متن روایی می‌یابد. در جایی که regex کار نمی‌کند، مؤثر است.

لایه سوم — موجودیت‌های سفارشی: فرم‌های خاص مکان را مدیریت می‌کند. الگوهای MRN اختصاصی، شناسه کارکنان، کدهای تأسیسات. هیچ مدل استانداردی این موارد را پوشش نمی‌دهد.

ابزارهای یادگیری ماشین خالص در اشکال مخفف و متن غیرانگلیسی تضعیف می‌شوند. ابزارهای regex خالص داده‌های حساس بدون برچسب فیلد را از دست می‌دهند. هیچ‌کدام به تنهایی کافی نیستند.

تنها طراحی سه‌لایه توانست نرخ خطا را زیر ۵ درصد در بررسی نگه دارد. این معیار انطباق با روش Safe Harbor در HIPAA است.

برای مراحل بعدی راهنمای شناسایی‌زدایی HIPAA Safe Harbor برای پژوهش را ببینید.

منابع

مقالات مرتبط

بهداشت و درمان

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

مدل‌های زبانی بزرگ ۵۰ درصد از اطلاعات بهداشتی محافظت‌شده بالینی را از دست می‌دهند

مشکل نرخ خطای ۵۰ درصدی

آنچه مدل‌های زبانی بزرگ از دست می‌دهند و چرا

خطر مجموعه داده‌های پژوهشی

راه‌حل سه‌لایه

منابع

مقالات مرتبط

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

آماده‌اید داده‌های خود را محافظت کنید؟

مدل‌های زبانی بزرگ ۵۰ درصد از اطلاعات بهداشتی محافظت‌شده بالینی را از دست می‌دهند

مشکل نرخ خطای ۵۰ درصدی

آنچه مدل‌های زبانی بزرگ از دست می‌دهند و چرا

خطر مجموعه داده‌های پژوهشی

راه‌حل سه‌لایه

منابع

مقالات مرتبط

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow