مشكلة معدل الفوات البالغ 50%
أجرت دراسة نُشرت عام 2025 (arXiv:2509.14464) اختبارات على أدوات نماذج اللغة الكبيرة باستخدام سجلات سريرية، وكانت النتائج مقلقة. أثبتت هذه الأدوات أنها تفوّت أكثر من 50% من المعلومات الصحية المحمية في الوثائق متعددة اللغات. والسبب واضح: نماذج اللغة الكبيرة مصممة لإنتاج النصوص، لا لأداء مهمة الكشف عالي الاستدعاء التي يفرضها قانون HIPAA.
يُعدّد قانون HIPAA وفق طريقة الملاذ الآمن 18 نوعًا من المعرّفات المحمية: الأسماء والتواريخ وأرقام الهاتف وأرقام الضمان الاجتماعي وأرقام السجلات الطبية ومعرفات خطط الصحة ومعرفات الأجهزة وعناوين IP. يستلزم كلٌّ منها منطق كشف خاصًا به.
تُضاعف الملاحظات السريرية من صعوبة المهمة. خذ هذا المثال: “المريض John D.، تاريخ الميلاد 4/12/67، رقم السجل الطبي 1234567، دخل بتاريخ 03/15/24، أمر الدكتور Smith بإجراء تخطيط قلب كهربائي.” جملة واحدة. خمسة معرّفات محمية. معظمها في صيغ مختصرة. كثيرًا ما يُخفق النموذج المُصمَّم لاستيعاب المعنى السريري في أداء مهمة الكشف.
ما الذي تفوّته نماذج اللغة الكبيرة ولماذا
تُخفق أدوات نماذج اللغة الكبيرة في السجلات السريرية بأنماط محددة.
المعرّفات المختصرة: تستخدم الملاحظات السريرية مختصرات شائعة كـDOB وMRN وPt. وقد لا يُصنّف النموذج المُضبَّط على الدلالة السريرية عبارة “Pt. John D.” باعتبارها اسمًا شخصيًا. تستلزم استخراج البيانات الحساسة هدفًا مختلفًا.
التواريخ السياقية: لا تحمل جميع التواريخ المخاطر ذاتها. فـ“العمر 67” مؤشر غير مباشر، بينما “تاريخ الميلاد 4/12/67” معرّف محمي مباشر، و“03/15/24” بوصفه تاريخ دخول يُعدّ محميًا أيضًا. لا تكفي مطابقة الأنماط وحدها.
التنسيقات غير الأمريكية: رصد تقرير Cyberhaven للربع الرابع من 2025 أن 34.8% من جميع مدخلات ChatGPT تحتوي على بيانات سرية، بما فيها بيانات شخصية متعددة اللغات. في مجال الرعاية الصحية، يعني ذلك أرقام سجلات غير أمريكية وتنسيقات تواريخ إقليمية وأنواع هويات صحية محلية. تفوّت الأدوات المُدرَّبة على البيئة الأمريكية هذه العناصر باستمرار.
معرّفات المستشفيات المخصصة: تعتمد المستشفيات تنسيقات خاصة بها لأرقام السجلات الطبية ومعرّفات الطاقم والرموز الداخلية. هذه العناصر ليست ضمن بيانات التدريب المعيارية للتعرف على الكيانات المسماة. أي أداة لا تدعم الكيانات المخصصة لن تتمكن من اكتشافها.
مخاطر مجموعات بيانات الأبحاث
يواجه المستشفى الساعي إلى بناء قاعدة بيانات بحثية من 500,000 ملاحظة سريرية تحديًا امتثاليًا حقيقيًا. يشترط قانون HIPAA معيار “المخاطر الضئيلة للغاية” في البيانات التي جرى إخفاء هويتها. لا يمكن لأداة تفوّت نصف المعرّفات المحمية أن ترقى إلى هذا المعيار.
أرشيفات الأبحاث ليست بيانات نظيفة. تمتد الملاحظات عبر أقسام متعددة وحقب زمنية شتى وربما لغات متنوعة. قد تُخفق أداة ناجحة في بيانات الفوترة في معالجة الملاحظات السردية. البيانات الحساسة في النصوص الحرة لا تحمل تسميات حقول.
تفرض موافقة مجلس المراجعة المؤسسية (IRB) متطلبات إضافية. يجب على المؤسسات توضيح المنهجية المُتبَّعة وأنواع المعرّفات المُزالة والفحوصات المُجراة. لا يمكن لأداة تفوّت نصف السجلات أن تلبّي هذه المتطلبات.
اطلع على نظرة عامة على الامتثال وممارسات الأمان لديهم لمعرفة كيفية دعم anonym.legal لأعمال الامتثال لقانون HIPAA.
الحل ثلاثي الطبقات
رصدت الدراسة المُجراة عام 2025 نمطًا واضحًا: الأدوات ذات أدنى معدلات الفوات اعتمدت ثلاث طبقات للكشف.
الطبقة الأولى — التعبيرات النمطية (regex): تكتشف المعرّفات المنظمة كأرقام الضمان الاجتماعي وأرقام السجلات الطبية وأرقام الهاتف ومعرفات خطط الصحة. موثوقة في التنسيقات الثابتة.
الطبقة الثانية — التعرف على الكيانات المسماة (NER): تستخدم نماذج التحويل (transformer) لاكتشاف الأسماء والتواريخ والبيانات الحساسة في النصوص السردية. تعمل حيث تعجز التعبيرات النمطية.
الطبقة الثالثة — الكيانات المخصصة: تتعامل مع الصيغ الخاصة بكل موقع كأنماط أرقام السجلات الطبية المحلية ومعرّفات الطاقم ورموز المنشآت. لا يُغطّي هذه الفئات أي نموذج معياري.
تتراجع كفاءة أدوات التعلم الآلي البحتة في الصيغ المختصرة والنصوص غير الإنجليزية. وتُخفق أدوات التعبيرات النمطية البحتة في البيانات الحساسة الخالية من تسميات الحقول. لا يكفي أيٌّ من النهجين منفردًا.
التصميم ثلاثي الطبقات وحده هو الذي حقق معدلات فوات أقل من 5% في الدراسة. هذا هو المعيار المطلوب للامتثال لطريقة الملاذ الآمن وفق قانون HIPAA.
اطلع على دليلنا حول إخفاء هوية البيانات وفق طريقة الملاذ الآمن لقانون HIPAA في الأبحاث الصحية للخطوات التالية.