সমস্ত ডি-শনাক্তকরণ সরঞ্জাম সমান নয়
PHI ডি-শনাক্তকরণ সরঞ্জাম মূল্যায়ন করলে, নির্ভুলতা সবকিছু। সনাক্তকরণ হারে ৪% পার্থক্য ছোট মনে হতে পারে—যতক্ষণ না আপনি বুঝতে পারেন যে একটি মিলিয়ন-রেকর্ড ডেটাসেটের ৪% ४०,००० এক্সপোজড রেকর্ড।
ECIR २०२५ থেকে সাম্প্রতিক বেঞ্চমার্ক শীর্ষস্থানীয় সরঞ্জাম জুড়ে PHI সনাক্তকরণ নির্ভুলতায় নাটকীয় পার্থক্য প্রকাশ করে।
ECIR २००२५ বেঞ্চমার্ক ফলাফল
| সরঞ্জাম | F१-স্কোর | নির্ভুলতা | স্মরণ |
|---|---|---|---|
| John Snow Labs | ०६% | ०५% | ०७% |
| Azure AI | ०१% | ०० % | ०२% |
| AWS Comprehend চিকিৎসা | ८३% | ८१% | ८५% |
| GPT-४o | ०१% | ०२% | ०६% |
F१-স্কোর নির্ভুলতা (কতটি সনাক্ত সত্তা সঠিক ছিল) এবং স্মরণ (কতটি প্রকৃত সত্তা সনাক্ত করা হয়েছিল) একত্রিত করে। উভয় গুরুত্বপূর্ণ:
- নিম্ন নির্ভুলতা = মিথ্যা ইতিবাচক (অধিক-রিডেকশন)
- নিম্ন স্মরণ = মিথ্যা নেতিবাচক (মিস্ড PII = লঙ্ঘন)
কেন ব্যবধান বিদ্যমান
প্রশিক্ষণ ডেটা পার্থক্য
| সরঞ্জাম | প্রশিক্ষণ ফোকাস |
|---|---|
| John Snow Labs | স্বাস্থ্যসেবা-নির্দিষ্ট, ক্লিনিক্যাল নোট |
| Azure AI | সাধারণ চিকিৎসা + ক্লিনিক্যাল |
| AWS Comprehend | সাধারণ চিকিৎসা সত্তা |
| GPT-४o | বিস্তৃত প্রশিক্ষণ, স্বাস্থ্যসেবা-নির্দিষ্ট নয় |
John Snow Labs এর মডেলগুলি ক্লিনিক্যাল ডকুমেন্টেশন-এর জন্য বিশেষভাবে প্রশিক্ষিত, যা স্বাস্থ্যসেবা আসলে উৎপাদন করে—সংক্ষিপ্ত, প্রসঙ্গ-নির্ভর পাঠ্য।
সত্তা প্রকার কভারেজ
সমস্ত সরঞ্জাম একই সত্তা সনাক্ত করে না:
| সত্তা | John Snow | Azure | AWS | GPT-४o | |--------|-----------|-------|-----|------...