৫০% মিস রেটের সমস্যা
২০২৫ সালের একটি সমীক্ষা (arXiv:2509.14464) ক্লিনিক্যাল রেকর্ডে LLM টুলগুলো পরীক্ষা করেছে। ফলাফল খারাপ ছিল। এই টুলগুলো বহুভাষিক ডকুমেন্টে ৫০%-এর বেশি ক্লিনিক্যাল PHI মিস করেছে। কারণটি সহজ। LLM টেক্সট আউটপুটের জন্য তৈরি। HIPAA-যা দাবি করে সেই উচ্চ-রিকল ডিটেকশন কাজের জন্য নয়।
HIPAA Safe Harbor ১৮ ধরনের সুরক্ষিত পরিচয়দাতাকারীর তালিকা দেয়। নাম, তারিখ, ফোন নম্বর, SSN, MRN, স্বাস্থ্য পরিকল্পনা আইডি, ডিভাইস আইডি এবং IP ঠিকানা। প্রতিটির জন্য নিজস্ব ডিটেকশন লজিক দরকার।
ক্লিনিক্যাল নোটগুলো বিষয়টিকে আরও কঠিন করে তোলে। এই উদাহরণটি দেখুন: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." একটি বাক্য। পাঁচটি সুরক্ষিত পরিচয়দাতাকারী। বেশিরভাগ সংক্ষিপ্ত রূপে। ক্লিনিক্যাল অর্থের জন্য তৈরি একটি মডেল প্রায়ই ডিটেকশন কাজে ব্যর্থ হয়।
LLM কী মিস করে এবং কেন
LLM টুলগুলো ক্লিনিক্যাল রেকর্ডে নির্দিষ্ট উপায়ে ব্যর্থ হয়।
সংক্ষিপ্ত-রূপের পরিচয়দাতাকারী: ক্লিনিক্যাল নোটে সংক্ষিপ্ত রূপ ব্যবহার হয়। DOB, MRN এবং Pt. সাধারণ রূপ। ক্লিনিক্যাল অর্থের জন্য টিউন করা মডেল "Pt. John D."-কে নাম হিসেবে ফ্ল্যাগ নাও করতে পারে। সংবেদনশীল ডেটা নিষ্কাশনের জন্য ভিন্ন লক্ষ্য দরকার।
প্রসঙ্গ-নির্ভর তারিখ: সব তারিখ একই ঝুঁকি তৈরি করে না। "Age 67" একটি নরম চিহ্নিতকারী। "DOB 4/12/67" একটি সরাসরি সুরক্ষিত পরিচয়দাতাকারী। ভর্তির তারিখ হিসেবে "03/15/24"ও সুরক্ষিত। শুধু প্যাটার্ন ম্যাচিং যথেষ্ট নয়।
মার্কিন-বহির্ভূত ফরম্যাট: Cyberhaven (Q4 2025) দেখেছে ChatGPT-তে দেওয়া সমস্ত ইনপুটের ৩৪.৮%-তে সংবেদনশীল ডেটা থাকে, যার মধ্যে বহুভাষিক PII রয়েছে। স্বাস্থ্যসেবায় এর অর্থ মার্কিন-বহির্ভূত রেকর্ড আইডি, আঞ্চলিক তারিখ ফরম্যাট এবং স্থানীয় স্বাস্থ্য আইডি টাইপ। মার্কিন-প্রশিক্ষিত টুল এগুলো ধারাবাহিকভাবে মিস করে।
কাস্টম হাসপাতাল পরিচয়দাতাকারী: হাসপাতালগুলো তাদের নিজস্ব MRN ফরম্যাট, স্টাফ আইডি এবং সাইট কোড ব্যবহার করে। এগুলো স্ট্যান্ডার্ড NER ট্রেনিং ডেটায় নেই। কাস্টম এন্টিটি সমর্থন নেই এমন টুল এগুলো খুঁজে পাবে না।
গবেষণা ডেটাসেটের ঝুঁকি
৫০০,০০০ নোট থেকে গবেষণা ডেটাসেট তৈরি করছে এমন একটি হাসপাতাল বাস্তব কমপ্লায়েন্স সমস্যার মুখে পড়ে। HIPAA ডি-আইডেন্টিফাইড ডেটার জন্য "অত্যন্ত ক্ষুদ্র ঝুঁকি" মানদণ্ড নির্ধারণ করে। সমস্ত সুরক্ষিত পরিচয়দাতাকারীর অর্ধেক মিস করে এমন একটি টুল সেই মানদণ্ড পূরণ করতে পারে না।
গবেষণা আর্কাইভ পরিষ্কার ডেটা নয়। নোটগুলো অনেক বিভাগ, সময়কাল এবং কখনও কখনও ভাষায় বিস্তৃত। বিলিং ডেটায় কাজ করে এমন একটি টুল ন্যারেটিভ নোটে ব্যর্থ হতে পারে। ফ্রি টেক্সটে সংবেদনশীল ডেটার কোনো ফিল্ড লেবেল নেই।
IRB অনুমোদন আরও দাবি যোগ করে। প্রতিষ্ঠানগুলোকে ব্যবহৃত পদ্ধতি, সরানো পরিচয়দাতাকারী ধরন এবং করা পরীক্ষা দেখাতে হবে। সমস্ত রেকর্ডের অর্ধেক মিস করে এমন একটি টুল সেই দাবি পূরণ করতে পারে না।
anonym.legal কীভাবে HIPAA কাজ সমর্থন করে তা দেখুন আমাদের কমপ্লায়েন্স ওভারভিউ এবং নিরাপত্তা অনুশীলন-এ।
তিন-স্তরীয় সমাধান
২০২৫ সালের সমীক্ষা একটি স্পষ্ট প্যাটার্ন খুঁজে পেয়েছে। সর্বনিম্ন মিস রেটের টুলগুলো তিনটি ডিটেকশন স্তর ব্যবহার করেছে।
স্তর এক — রেজেক্স: কাঠামোবদ্ধ পরিচয়দাতাকারী খোঁজে। SSN, MRN, ফোন নম্বর, স্বাস্থ্য পরিকল্পনা আইডি। নির্দিষ্ট ফরম্যাটে নির্ভরযোগ্য।
স্তর দুই — NER: ট্রান্সফর্মার মডেল ব্যবহার করে। ন্যারেটিভ টেক্সটে নাম, তারিখ এবং সংবেদনশীল ডেটা খোঁজে। যেখানে রেজেক্স পারে না সেখানে কাজ করে।
স্তর তিন — কাস্টম এন্টিটি: সাইট-স্পেসিফিক ফরম্যাট পরিচালনা করে। মালিকানাধীন MRN প্যাটার্ন, স্টাফ আইডি, ফ্যাসিলিটি কোড। কোনো স্ট্যান্ডার্ড মডেল এগুলো কভার করে না।
পিউর ML টুল সংক্ষিপ্ত রূপ এবং অ-ইংরেজি টেক্সটে মান কমে যায়। পিউর রেজেক্স টুল ফিল্ড লেবেল ছাড়া সংবেদনশীল ডেটা মিস করে। একা কোনোটাই যথেষ্ট নয়।
সমীক্ষায় শুধুমাত্র তিন-স্তরীয় ডিজাইন ৫%-এর নিচে মিস রেট অর্জন করেছে। এটাই HIPAA Safe Harbor কমপ্লায়েন্সের মানদণ্ড।
পরবর্তী পদক্ষেপের জন্য গবেষণার জন্য HIPAA Safe Harbor ডি-আইডেন্টিফিকেশন-এর গাইড দেখুন।