مشكلة معدل الفقد 50%
وجدت دراسة عام 2025 لأدوات إزالة الهوية المعتمدة على نماذج اللغة الكبيرة (arXiv:2509.14464) أن أدوات نماذج اللغة العامة تفوت أكثر من 50% من المعلومات الصحية السريرية في الوثائق متعددة اللغات. تعكس هذه النسبة عدم تطابق معماري أساسي: تم تصميم نماذج اللغة الكبيرة لفهم اللغة وتوليدها، وليس لمهمة التعرف الهيكلي عالية الاسترجاع التي تتطلبها إزالة الهوية وفقًا لقانون HIPAA.
يتطلب أسلوب "الملاذ الآمن" لقانون خصوصية HIPAA إزالة 18 فئة محددة من المعرفات: الأسماء، البيانات الجغرافية، التواريخ، أرقام الهواتف، أرقام الفاكس، عناوين البريد الإلكتروني، أرقام الضمان الاجتماعي، أرقام السجلات الطبية، أرقام المستفيدين من خطط الصحة، أرقام الحسابات، أرقام الشهادات/التراخيص، أرقام تعريف المركبات، معرفات الأجهزة، عناوين الويب، عناوين IP، المعرفات البيومترية، الصور الكاملة للوجه، وأي رقم أو رمز تعريف فريد آخر. كل من هذه الفئات لها تنسيقات هيكلية تتطلب منطق اكتشاف محدد.
تتركز الصعوبة في الملاحظات السريرية. اعتبر جزءًا نموذجيًا من ملاحظة سريرية: "المريض. جون د، تاريخ الميلاد 4/12/67، رقم السجل الطبي 1234567، قدم إلى قسم الطوارئ في 03/15/24 مع ألم في الصدر. التاريخ الطبي السابق: ارتفاع ضغط الدم، السكري. طلب الدكتور سميث تخطيط القلب." تحتوي هذه الجملة الواحدة على اسم، تاريخ ميلاد، رقم سجل طبي، تاريخ القبول، والطبيب المعالج — خمسة معرفات وفقًا لقانون HIPAA، بعضها في شكل مختصر، مضمنة في اختصارات سريرية.
ما الذي تفوته نماذج اللغة الكبيرة ولماذا
تفشل نماذج اللغة العامة في التعرف على المعلومات الصحية السريرية بنمط يمكن التنبؤ به.
المعرفات المختصرة: تستخدم الملاحظات السريرية اختصارات قياسية (تاريخ الميلاد للاختصار DOB، رقم السجل الطبي للاختصار MRN، المريض للاختصار Pt.) قد لا تتعرف عليها نماذج التعرف على الكيانات غير السياقية كعلامات بيانات شخصية. تفهم نموذج اللغة الكبيرة التي تقرأ الملاحظة أعلاه المعنى السريري بشكل عام؛ قد تفوت نموذج اللغة الكبيرة المكلف باستخراج المعلومات الصحية "المريض. جون د." كنمط اسم جزئي.
التواريخ المعتمدة على السياق: تحمل التواريخ في الملاحظات السريرية دلالة خاصة وفقًا لقانون HIPAA. "العمر 67" هو معرف جزئي يجب ملاحظته. "تاريخ الميلاد 4/12/67" هو معلومات صحية. "03/15/24" كتاريخ قبول هو معلومات صحية. تتطلب هذه استخراج تواريخ معتمدة على السياق، وليس مجرد مطابقة نمط التواريخ.
تنسيقات المعرفات الإقليمية: وجدت أبحاث Cyberhaven (الربع الرابع من 2025) أن 34.8% من جميع مدخلات ChatGPT تحتوي على بيانات حساسة بما في ذلك بيانات شخصية متعددة اللغات. في سياقات الرعاية الصحية، يشمل ذلك تنسيقات السجلات الطبية غير الأمريكية، والأعراف الدولية للتواريخ، وتنسيقات المعرفات الصحية الخاصة بالدول التي تفوتها الأنظمة التي تركز على الولايات المتحدة.
المعرفات المؤسسية المخصصة: تستخدم أنظمة الصحة تنسيقات رقم السجل الطبي الخاصة، وأرقام الموظفين، وأكواد المرافق التي ليست جزءًا من بيانات تدريب نماذج التعرف على الكيانات القياسية. لا يمكن لنظام بدون دعم نوع الكيان المخصص اكتشاف هذه.
مشكلة الامتثال لمجموعة بيانات البحث
يواجه نظام مستشفى يبني مجموعة بيانات بحثية غير محددة الهوية من 500,000 ملاحظة سريرية خطرًا مركبًا. يتطلب قانون HIPAA أن تلبي مجموعات البيانات البحثية غير المحددة الهوية معيار "الخطر الضئيل جدًا" بموجب أسلوب الملاذ الآمن أو النهج الإحصائي بموجب التحديد الخبير. ينتج نظام يفوت 50% من المعلومات الصحية مجموعة بيانات تفشل في هذا المعيار — مما يعرض المؤسسة البحثية إلى إنفاذ OCR وفشل الامتثال لمراجعة IRB.
الملاحظات السريرية في مجموعة بيانات البحث ليست موحدة. تمتد عبر أقسام مختلفة (أمراض القلب، الأورام، الطب النفسي)، وأنماط توثيق مختلفة، وفترات زمنية مختلفة، و — في أنظمة الصحة متعددة اللغات — لغات مختلفة. قد يفشل نظام إزالة الهوية الذي يعمل بشكل كافٍ على بيانات الفوترة الهيكلية في الملاحظات التقدمية النفسية غير الهيكلية حيث تظهر المعلومات الصحية في سياق سردي بدلاً من حقول معلمة.
متطلبات الكشف الهجين
حددت دراسة البحث لعام 2025 النمط المتسق: الأنظمة ذات أعلى استرجاع للمعلومات الصحية تجمع بين اكتشاف المعرفات الهيكلية (تعبيرات منتظمة لأرقام الضمان الاجتماعي، أرقام السجلات الطبية، أرقام الهواتف) مع التعرف على الكيانات السياقية (نماذج قائمة على المحولات للأسماء، التواريخ في السياق السردي) ودعم الكيانات المخصصة (المعرفات الخاصة بالمؤسسة).
تحقق الأساليب النقية للذكاء الاصطناعي استرجاعًا عاليًا على المعرفات الشائعة في النصوص المنسقة جيدًا ولكنها تتدهور على الاختصارات، وأنواع المعرفات النادرة، والنصوص غير الإنجليزية. تحقق الأساليب النقية للتعبيرات المنتظمة استرجاعًا عاليًا على المعرفات الهيكلية ولكنها تفوت المعلومات الصحية السياقية (اسم طبيب مذكور في سرد سريري بدون بادئة لقب).
يعد الهيكل الهجين ثلاثي المستويات — التعبيرات المنتظمة للمعرفات الهيكلية، معالجة اللغة الطبيعية للمعلومات الصحية السياقية، نماذج المحولات للأشكال متعددة اللغات والمختصرة — هو النمط الذي حددته الدراسة كتحقيق معدلات فقد أقل من 5% مناسبة للامتثال لقانون HIPAA.
المصادر: