৫০% মিস রেটের সমস্যা

২০২৫ সালের একটি সমীক্ষা (arXiv:2509.14464) ক্লিনিক্যাল রেকর্ডে LLM টুলগুলো পরীক্ষা করেছে। ফলাফল খারাপ ছিল। এই টুলগুলো বহুভাষিক ডকুমেন্টে ৫০%-এর বেশি ক্লিনিক্যাল PHI মিস করেছে। কারণটি সহজ। LLM টেক্সট আউটপুটের জন্য তৈরি। HIPAA-যা দাবি করে সেই উচ্চ-রিকল ডিটেকশন কাজের জন্য নয়।

HIPAA Safe Harbor ১৮ ধরনের সুরক্ষিত পরিচয়দাতাকারীর তালিকা দেয়। নাম, তারিখ, ফোন নম্বর, SSN, MRN, স্বাস্থ্য পরিকল্পনা আইডি, ডিভাইস আইডি এবং IP ঠিকানা। প্রতিটির জন্য নিজস্ব ডিটেকশন লজিক দরকার।

ক্লিনিক্যাল নোটগুলো বিষয়টিকে আরও কঠিন করে তোলে। এই উদাহরণটি দেখুন: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." একটি বাক্য। পাঁচটি সুরক্ষিত পরিচয়দাতাকারী। বেশিরভাগ সংক্ষিপ্ত রূপে। ক্লিনিক্যাল অর্থের জন্য তৈরি একটি মডেল প্রায়ই ডিটেকশন কাজে ব্যর্থ হয়।

LLM কী মিস করে এবং কেন

LLM টুলগুলো ক্লিনিক্যাল রেকর্ডে নির্দিষ্ট উপায়ে ব্যর্থ হয়।

সংক্ষিপ্ত-রূপের পরিচয়দাতাকারী: ক্লিনিক্যাল নোটে সংক্ষিপ্ত রূপ ব্যবহার হয়। DOB, MRN এবং Pt. সাধারণ রূপ। ক্লিনিক্যাল অর্থের জন্য টিউন করা মডেল "Pt. John D."-কে নাম হিসেবে ফ্ল্যাগ নাও করতে পারে। সংবেদনশীল ডেটা নিষ্কাশনের জন্য ভিন্ন লক্ষ্য দরকার।

প্রসঙ্গ-নির্ভর তারিখ: সব তারিখ একই ঝুঁকি তৈরি করে না। "Age 67" একটি নরম চিহ্নিতকারী। "DOB 4/12/67" একটি সরাসরি সুরক্ষিত পরিচয়দাতাকারী। ভর্তির তারিখ হিসেবে "03/15/24"ও সুরক্ষিত। শুধু প্যাটার্ন ম্যাচিং যথেষ্ট নয়।

মার্কিন-বহির্ভূত ফরম্যাট: Cyberhaven (Q4 2025) দেখেছে ChatGPT-তে দেওয়া সমস্ত ইনপুটের ৩৪.৮%-তে সংবেদনশীল ডেটা থাকে, যার মধ্যে বহুভাষিক PII রয়েছে। স্বাস্থ্যসেবায় এর অর্থ মার্কিন-বহির্ভূত রেকর্ড আইডি, আঞ্চলিক তারিখ ফরম্যাট এবং স্থানীয় স্বাস্থ্য আইডি টাইপ। মার্কিন-প্রশিক্ষিত টুল এগুলো ধারাবাহিকভাবে মিস করে।

কাস্টম হাসপাতাল পরিচয়দাতাকারী: হাসপাতালগুলো তাদের নিজস্ব MRN ফরম্যাট, স্টাফ আইডি এবং সাইট কোড ব্যবহার করে। এগুলো স্ট্যান্ডার্ড NER ট্রেনিং ডেটায় নেই। কাস্টম এন্টিটি সমর্থন নেই এমন টুল এগুলো খুঁজে পাবে না।

গবেষণা ডেটাসেটের ঝুঁকি

৫০০,০০০ নোট থেকে গবেষণা ডেটাসেট তৈরি করছে এমন একটি হাসপাতাল বাস্তব কমপ্লায়েন্স সমস্যার মুখে পড়ে। HIPAA ডি-আইডেন্টিফাইড ডেটার জন্য "অত্যন্ত ক্ষুদ্র ঝুঁকি" মানদণ্ড নির্ধারণ করে। সমস্ত সুরক্ষিত পরিচয়দাতাকারীর অর্ধেক মিস করে এমন একটি টুল সেই মানদণ্ড পূরণ করতে পারে না।

গবেষণা আর্কাইভ পরিষ্কার ডেটা নয়। নোটগুলো অনেক বিভাগ, সময়কাল এবং কখনও কখনও ভাষায় বিস্তৃত। বিলিং ডেটায় কাজ করে এমন একটি টুল ন্যারেটিভ নোটে ব্যর্থ হতে পারে। ফ্রি টেক্সটে সংবেদনশীল ডেটার কোনো ফিল্ড লেবেল নেই।

IRB অনুমোদন আরও দাবি যোগ করে। প্রতিষ্ঠানগুলোকে ব্যবহৃত পদ্ধতি, সরানো পরিচয়দাতাকারী ধরন এবং করা পরীক্ষা দেখাতে হবে। সমস্ত রেকর্ডের অর্ধেক মিস করে এমন একটি টুল সেই দাবি পূরণ করতে পারে না।

anonym.legal কীভাবে HIPAA কাজ সমর্থন করে তা দেখুন আমাদের কমপ্লায়েন্স ওভারভিউ এবং নিরাপত্তা অনুশীলন-এ।

তিন-স্তরীয় সমাধান

২০২৫ সালের সমীক্ষা একটি স্পষ্ট প্যাটার্ন খুঁজে পেয়েছে। সর্বনিম্ন মিস রেটের টুলগুলো তিনটি ডিটেকশন স্তর ব্যবহার করেছে।

স্তর এক — রেজেক্স: কাঠামোবদ্ধ পরিচয়দাতাকারী খোঁজে। SSN, MRN, ফোন নম্বর, স্বাস্থ্য পরিকল্পনা আইডি। নির্দিষ্ট ফরম্যাটে নির্ভরযোগ্য।

স্তর দুই — NER: ট্রান্সফর্মার মডেল ব্যবহার করে। ন্যারেটিভ টেক্সটে নাম, তারিখ এবং সংবেদনশীল ডেটা খোঁজে। যেখানে রেজেক্স পারে না সেখানে কাজ করে।

স্তর তিন — কাস্টম এন্টিটি: সাইট-স্পেসিফিক ফরম্যাট পরিচালনা করে। মালিকানাধীন MRN প্যাটার্ন, স্টাফ আইডি, ফ্যাসিলিটি কোড। কোনো স্ট্যান্ডার্ড মডেল এগুলো কভার করে না।

পিউর ML টুল সংক্ষিপ্ত রূপ এবং অ-ইংরেজি টেক্সটে মান কমে যায়। পিউর রেজেক্স টুল ফিল্ড লেবেল ছাড়া সংবেদনশীল ডেটা মিস করে। একা কোনোটাই যথেষ্ট নয়।

সমীক্ষায় শুধুমাত্র তিন-স্তরীয় ডিজাইন ৫%-এর নিচে মিস রেট অর্জন করেছে। এটাই HIPAA Safe Harbor কমপ্লায়েন্সের মানদণ্ড।

পরবর্তী পদক্ষেপের জন্য গবেষণার জন্য HIPAA Safe Harbor ডি-আইডেন্টিফিকেশন-এর গাইড দেখুন।

সূত্র

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

LLM-গুলো ৫০% ক্লিনিক্যাল PHI মিস করে

৫০% মিস রেটের সমস্যা

LLM কী মিস করে এবং কেন

গবেষণা ডেটাসেটের ঝুঁকি

তিন-স্তরীয় সমাধান

সূত্র

সম্পর্কিত নিবন্ধ

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

LLM-গুলো ৫০% ক্লিনিক্যাল PHI মিস করে

৫০% মিস রেটের সমস্যা

LLM কী মিস করে এবং কেন

গবেষণা ডেটাসেটের ঝুঁকি

তিন-স্তরীয় সমাধান

সূত্র

সম্পর্কিত নিবন্ধ

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow