مشکل نرخ خطای ۵۰ درصدی
یک بررسی ۲۰۲۵ (arXiv:2509.14464) ابزارهای مبتنی بر مدلهای زبانی بزرگ را بر روی پروندههای بالینی آزمود. نتایج نگرانکننده بود. این ابزارها بیش از ۵۰ درصد از اطلاعات بهداشتی محافظتشده بالینی را در اسناد چندزبانه از دست دادند. دلیل آن ساده است. مدلهای زبانی بزرگ برای تولید متن ساخته شدهاند. برای وظیفه تشخیص با فراخوانی بالا که HIPAA طلب میکند، طراحی نشدهاند.
روش Safe Harbor قانون HIPAA ۱۸ نوع شناسه محافظتشده فهرست میکند: نامها، تاریخها، شماره تلفن، شماره تأمین اجتماعی، شماره پرونده پزشکی (MRN)، شناسه برنامه بیمه، شناسه دستگاه، و آدرس IP. هر کدام به منطق تشخیصی خاص خود نیاز دارند.
یادداشتهای بالینی این کار را سختتر میکنند. به این مثال توجه کنید: «Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG.» یک جمله. پنج شناسه محافظتشده. بیشتر آنها به صورت مخفف نوشته شدهاند. مدلی که برای درک معنای بالینی تنظیم شده، اغلب در تشخیص این شناسهها شکست میخورد.
آنچه مدلهای زبانی بزرگ از دست میدهند و چرا
ابزارهای مبتنی بر مدلهای زبانی بزرگ در پروندههای بالینی به شیوههای مشخصی شکست میخورند.
شناسههای مخفف: یادداشتهای بالینی از اختصارات استفاده میکنند. DOB، MRN، و Pt. اشکال رایج هستند. مدلی که برای فهم معنای بالینی تنظیم شده ممکن است «Pt. John D.» را به عنوان نام علامتگذاری نکند. استخراج دادههای حساس به هدف متفاوتی نیاز دارد.
تاریخهای وابسته به زمینه: نه همه تاریخها خطر یکسانی دارند. «سن ۶۷» یک نشانگر غیرمستقیم است. «DOB 4/12/67» یک شناسه محافظتشده مستقیم است. «03/15/24» به عنوان تاریخ پذیرش هم محافظتشده است. تطبیق الگو به تنهایی کافی نیست.
فرمتهای غیرآمریکایی: Cyberhaven (Q4 2025) دریافت که ۳۴.۸ درصد از تمام ورودیهای ChatGPT حاوی اطلاعات تجاری محرمانه هستند، از جمله اطلاعات شناسایی شخصی چندزبانه. در حوزه سلامت، این به معنای شناسههای پرونده غیرآمریکایی، فرمتهای تاریخ منطقهای، و انواع شناسه بهداشتی محلی است. ابزارهای آموزشدیده بر دادههای آمریکایی بهطور مستمر این موارد را از دست میدهند.
شناسههای اختصاصی بیمارستان: بیمارستانها فرمتهای MRN، شناسه کارکنان، و کدهای مکان اختصاصی خود را دارند. این موارد در دادههای آموزشی NER استاندارد وجود ندارند. ابزاری که از پشتیبانی موجودیتهای سفارشی بهرهمند نیست، آنها را نمییابد.
خطر مجموعه دادههای پژوهشی
یک بیمارستان که مجموعه داده پژوهشی از ۵۰۰٬۰۰۰ یادداشت میسازد، با چالش انطباق واقعی روبهروست. HIPAA برای دادههای شناساییزداییشده معیار «خطر بسیار کم» را تعریف میکند. ابزاری که نیمی از تمام شناسههای محافظتشده را از دست میدهد نمیتواند این معیار را برآورده سازد.
بایگانیهای پژوهشی دادههای تمیز ندارند. یادداشتها بخشهای مختلف، دورههای زمانی متفاوت، و گاهی زبانهای گوناگون را در بر میگیرند. ابزاری که بر روی دادههای صورتحساب کار میکند ممکن است در یادداشتهای روایی شکست بخورد. دادههای حساس در متن آزاد هیچ برچسب فیلدی ندارند.
تأیید کمیته اخلاق (IRB) الزامات بیشتری اضافه میکند. مؤسسات باید روش مورد استفاده، انواع شناسههای حذفشده، و بررسیهای انجامشده را مستند کنند. ابزاری که نیمی از تمام پروندهها را از دست میدهد نمیتواند این الزامات را برآورده سازد.
برای آشنایی با نحوه پشتیبانی anonym.legal از کارهای HIPAA، نمای کلی انطباق و رویههای امنیتی ما را ببینید.
راهحل سهلایه
بررسی ۲۰۲۵ یک الگوی روشن یافت. ابزارهایی با پایینترین نرخ خطا از سه لایه تشخیصی استفاده میکردند.
لایه اول — regex: شناسههای ساختاریافته را مییابد. شماره تأمین اجتماعی، MRN، شماره تلفن، شناسه برنامه بیمه. بر روی فرمتهای ثابت قابل اعتماد است.
لایه دوم — NER: از مدلهای ترانسفورمر استفاده میکند. نامها، تاریخها، و دادههای حساس را در متن روایی مییابد. در جایی که regex کار نمیکند، مؤثر است.
لایه سوم — موجودیتهای سفارشی: فرمهای خاص مکان را مدیریت میکند. الگوهای MRN اختصاصی، شناسه کارکنان، کدهای تأسیسات. هیچ مدل استانداردی این موارد را پوشش نمیدهد.
ابزارهای یادگیری ماشین خالص در اشکال مخفف و متن غیرانگلیسی تضعیف میشوند. ابزارهای regex خالص دادههای حساس بدون برچسب فیلد را از دست میدهند. هیچکدام به تنهایی کافی نیستند.
تنها طراحی سهلایه توانست نرخ خطا را زیر ۵ درصد در بررسی نگه دارد. این معیار انطباق با روش Safe Harbor در HIPAA است.
برای مراحل بعدی راهنمای شناساییزدایی HIPAA Safe Harbor برای پژوهش را ببینید.