By · Last updated 2026-04-02

العودة إلى المدونةالرعاية الصحية

نماذج اللغة الكبيرة تفوّت أكثر من 50% من المعلومات الصحية المحمية في السجلات السريرية

كشفت دراسة أجريت عام 2025 أن نماذج اللغة الكبيرة تفوّت أكثر من 50% من المعلومات الصحية المحمية في الوثائق متعددة اللغات. تحتوي 34.8% من مدخلات ChatGPT على بيانات حساسة. يستعرض هذا المقال سبب قصور هذه الأدوات عن تلبية متطلبات إخفاء هوية البيانات وفق قانون HIPAA.

April 2, 20269 دقيقة قراءة
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

مشكلة معدل الفوات البالغ 50%

أجرت دراسة نُشرت عام 2025 (arXiv:2509.14464) اختبارات على أدوات نماذج اللغة الكبيرة باستخدام سجلات سريرية، وكانت النتائج مقلقة. أثبتت هذه الأدوات أنها تفوّت أكثر من 50% من المعلومات الصحية المحمية في الوثائق متعددة اللغات. والسبب واضح: نماذج اللغة الكبيرة مصممة لإنتاج النصوص، لا لأداء مهمة الكشف عالي الاستدعاء التي يفرضها قانون HIPAA.

يُعدّد قانون HIPAA وفق طريقة الملاذ الآمن 18 نوعًا من المعرّفات المحمية: الأسماء والتواريخ وأرقام الهاتف وأرقام الضمان الاجتماعي وأرقام السجلات الطبية ومعرفات خطط الصحة ومعرفات الأجهزة وعناوين IP. يستلزم كلٌّ منها منطق كشف خاصًا به.

تُضاعف الملاحظات السريرية من صعوبة المهمة. خذ هذا المثال: “المريض John D.، تاريخ الميلاد 4/12/67، رقم السجل الطبي 1234567، دخل بتاريخ 03/15/24، أمر الدكتور Smith بإجراء تخطيط قلب كهربائي.” جملة واحدة. خمسة معرّفات محمية. معظمها في صيغ مختصرة. كثيرًا ما يُخفق النموذج المُصمَّم لاستيعاب المعنى السريري في أداء مهمة الكشف.

ما الذي تفوّته نماذج اللغة الكبيرة ولماذا

تُخفق أدوات نماذج اللغة الكبيرة في السجلات السريرية بأنماط محددة.

المعرّفات المختصرة: تستخدم الملاحظات السريرية مختصرات شائعة كـDOB وMRN وPt. وقد لا يُصنّف النموذج المُضبَّط على الدلالة السريرية عبارة “Pt. John D.” باعتبارها اسمًا شخصيًا. تستلزم استخراج البيانات الحساسة هدفًا مختلفًا.

التواريخ السياقية: لا تحمل جميع التواريخ المخاطر ذاتها. فـ“العمر 67” مؤشر غير مباشر، بينما “تاريخ الميلاد 4/12/67” معرّف محمي مباشر، و“03/15/24” بوصفه تاريخ دخول يُعدّ محميًا أيضًا. لا تكفي مطابقة الأنماط وحدها.

التنسيقات غير الأمريكية: رصد تقرير Cyberhaven للربع الرابع من 2025 أن 34.8% من جميع مدخلات ChatGPT تحتوي على بيانات سرية، بما فيها بيانات شخصية متعددة اللغات. في مجال الرعاية الصحية، يعني ذلك أرقام سجلات غير أمريكية وتنسيقات تواريخ إقليمية وأنواع هويات صحية محلية. تفوّت الأدوات المُدرَّبة على البيئة الأمريكية هذه العناصر باستمرار.

معرّفات المستشفيات المخصصة: تعتمد المستشفيات تنسيقات خاصة بها لأرقام السجلات الطبية ومعرّفات الطاقم والرموز الداخلية. هذه العناصر ليست ضمن بيانات التدريب المعيارية للتعرف على الكيانات المسماة. أي أداة لا تدعم الكيانات المخصصة لن تتمكن من اكتشافها.

مخاطر مجموعات بيانات الأبحاث

يواجه المستشفى الساعي إلى بناء قاعدة بيانات بحثية من 500,000 ملاحظة سريرية تحديًا امتثاليًا حقيقيًا. يشترط قانون HIPAA معيار “المخاطر الضئيلة للغاية” في البيانات التي جرى إخفاء هويتها. لا يمكن لأداة تفوّت نصف المعرّفات المحمية أن ترقى إلى هذا المعيار.

أرشيفات الأبحاث ليست بيانات نظيفة. تمتد الملاحظات عبر أقسام متعددة وحقب زمنية شتى وربما لغات متنوعة. قد تُخفق أداة ناجحة في بيانات الفوترة في معالجة الملاحظات السردية. البيانات الحساسة في النصوص الحرة لا تحمل تسميات حقول.

تفرض موافقة مجلس المراجعة المؤسسية (IRB) متطلبات إضافية. يجب على المؤسسات توضيح المنهجية المُتبَّعة وأنواع المعرّفات المُزالة والفحوصات المُجراة. لا يمكن لأداة تفوّت نصف السجلات أن تلبّي هذه المتطلبات.

اطلع على نظرة عامة على الامتثال وممارسات الأمان لديهم لمعرفة كيفية دعم anonym.legal لأعمال الامتثال لقانون HIPAA.

الحل ثلاثي الطبقات

رصدت الدراسة المُجراة عام 2025 نمطًا واضحًا: الأدوات ذات أدنى معدلات الفوات اعتمدت ثلاث طبقات للكشف.

الطبقة الأولى — التعبيرات النمطية (regex): تكتشف المعرّفات المنظمة كأرقام الضمان الاجتماعي وأرقام السجلات الطبية وأرقام الهاتف ومعرفات خطط الصحة. موثوقة في التنسيقات الثابتة.

الطبقة الثانية — التعرف على الكيانات المسماة (NER): تستخدم نماذج التحويل (transformer) لاكتشاف الأسماء والتواريخ والبيانات الحساسة في النصوص السردية. تعمل حيث تعجز التعبيرات النمطية.

الطبقة الثالثة — الكيانات المخصصة: تتعامل مع الصيغ الخاصة بكل موقع كأنماط أرقام السجلات الطبية المحلية ومعرّفات الطاقم ورموز المنشآت. لا يُغطّي هذه الفئات أي نموذج معياري.

تتراجع كفاءة أدوات التعلم الآلي البحتة في الصيغ المختصرة والنصوص غير الإنجليزية. وتُخفق أدوات التعبيرات النمطية البحتة في البيانات الحساسة الخالية من تسميات الحقول. لا يكفي أيٌّ من النهجين منفردًا.

التصميم ثلاثي الطبقات وحده هو الذي حقق معدلات فوات أقل من 5% في الدراسة. هذا هو المعيار المطلوب للامتثال لطريقة الملاذ الآمن وفق قانون HIPAA.

اطلع على دليلنا حول إخفاء هوية البيانات وفق طريقة الملاذ الآمن لقانون HIPAA في الأبحاث الصحية للخطوات التالية.

المصادر

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.