شمارههای CPR دانمارک: راهنمای انطباق GDPR
بروزرسانی برای ۲۰۲۶
سازمان نظارتی داده دانمارک، Datatilsynet، در سال ۲۰۲۴ ۳۱ تصمیم GDPR صادر کرد. چهارده تا مربوط به دادههای بهداشتی بود. این سهم بالا دو واقعیت را منعکس میکند: دانمارک یک سیستم بهداشت ملی بزرگ اداره میکند، و شکافهای فنی در آن سیستم به پخش شدن پروندههای بیمار ادامه میدهد.
قانون رقم کنترلی برای شمارههای CPR
شماره CPR شناسه شخصی دانمارک است. این عدد ۱۰ رقمی با قالب DDMMYY-XXXX است. شش رقم اول تاریخ تولد هستند. چهار رقم آخر یک کد به علاوه یک رقم کنترلی هستند.
رقم کنترلی از قانون modulus-11 استفاده میکند:
- ارقام ۱ تا ۹ را بگیرید.
- به هر کدام یک وزن بدهید: ۴، ۳، ۲، ۷، ۶، ۵، ۴، ۳، ۲.
- هر رقم را در وزن آن ضرب کنید. همه نتایج را جمع بزنید.
- بر ۱۱ تقسیم کنید. باقیمانده را یادداشت کنید.
- باقیمانده ۰ → رقم کنترلی ۰ است.
- باقیمانده ۱ → عدد معتبر نیست.
- باقیمانده ۲–۱۰ → رقم کنترلی ۱۱ منهای باقیمانده است.
این قانون برای هر ابزاری که شمارههای CPR را اسکن میکند اهمیت دارد. برخی رشتههای DDMMYY-XXXX هرگز نمیتوانند معتبر باشند. ابزارهایی که این مرحله را نادیده میگیرند تاریخها، کدهای فاکتور، و شمارههای مرجع را به عنوان شناسههای واقعی علامتگذاری میکنند.
بررسی ۲۰۲۴ این سازمان نشان داد که ۶۷٪ از ابزارهای عمومی NLP این بررسی را نادیده میگیرند. این شکاف اصلیترین شکست فنی در پروندههای بهداشتی آن است.
پنج ثبت بهداشتی دانمارک
دانمارک دادههای بهداشتی را در پنج ثبت ملی پیوند میزند. شناسه شخصی همه پنج را به هم متصل میکند.
- سوابق ترخیص بیمارستان (از ۱۹۷۷)
- دادههای نسخه (از ۱۹۹۵)
- ثبت سرطان (از ۱۹۴۳)
- ثبت علت مرگ (از ۱۹۷۰)
- تشخیصهای مراقبت اولیه (از ۱۹۹۰)
این تحقیقات بهداشتی دانمارکی را بسیار قوی میکند. همچنین یک خطر ایجاد میکند. حذف شناسه خام کافی نیست. یک مجموعه داده که هنوز سن، جنس، تشخیص، و سال را نگه میدارد میتواند افراد را مجدداً افشا کند — به ویژه آنهایی که بیماریهای نادر دارند.
راهنمای ۲۰۲۴ Datatilsynet درباره استفاده ثانویه از دادههای بهداشتی سه الزام تعیین میکند.
بنویسید با داده چه کردید: فهرست کنید کدام فیلدها را حذف کردید، کدامها را گرد کردید یا گروهبندی کردید، و خروجی چه اندازه گروهی دارد. یک یادداشت سیاستی این استاندارد را برآورده نمیکند.
برای مجموعههای بزرگ بررسی خارجی دریافت کنید: برای مجموعه دادههایی با بیش از ۵,۰۰۰ نفر، سازمان یک بررسی فنی مستقل از مراحل شناسایی را توصیه میکند.
داده را با سؤال مطابقت دهید: مجموعه داده باید با هدف تحقیقاتی اعلامشده مطابقت داشته باشد. سازمان مواردی پیدا کرد که تیمها از ثبتهای ملی کامل استفاده میکردند در حالی که یک نمونه کوچکتر کافی بود.
برای نحوه اعمال قوانین رقم کنترلی به قالبهای شناسه اروپایی دیگر، راهنمای شناسایی شناسه ملی اتحادیه اروپا ما را ببینید.
آنچه پروندههای ۲۰۲۴ یافتند
چهارده پرونده بهداشتی سه نوع شکست مشترک را به اشتراک میگذارند.
اشتراکگذاری دادههای تحقیقاتی: یک بیمارستان یک مجموعه داده بیمار ناشناسشده را برای آموزش هوش مصنوعی به یک شریک دانشگاهی ارسال میکند. این مجموعه بخشهای تاریخ تولد، کدهای تشخیص، و تاریخهای درمان را دارد. سازمان مییابد که این ترکیب بیماران با بیماریهای نادر را مجدداً افشا میکند. تشخیصهای غیرمعمول استخر را سریع محدود میکنند.
خدمات هوش مصنوعی شخص ثالث: یک شرکت فناوری بهداشت یادداشتهای بیمار را برای کار با سوابق بالینی به یک سرویس هوش مصنوعی مستقر در آمریکا ارسال میکند. شناسههای شخصی در آن یادداشتها اول حذف نشدهاند. هیچ مکانیزم انتقال معتبری وجود ندارد.
شکافهای خط لوله OCR: یک بیمهگر فرمهای PDF اسکنشده برای ادعاهای ناتوانی را پردازش میکند. ابزار OCR آن تصاویر را به متن تبدیل میکند. اما آزمونهای رقم کنترلی را روی خروجی اجرا نمیکند. بسیاری از شناسهها از دست میروند.
OCR اغلب در وسط عدد فاصله درج میکند یا خط فاصله را جابهجا میکند. تطابق الگوی ساده روی آن خروجی شکست میخورد. شناسایی باید روی متن OCR کار کند، نه فقط ورودی تمیز. برای مراحل رسیدگی به اسناد اسکنشده، راهنمای شناسایی PII بهداشتی OCR ما را ببینید.
سه ضرورت فنی
این سه عنصر پایه انطباق GDPR بهداشت دانمارکی را تشکیل میدهند.
آزمونهای رقم کنترلی روی همه متون: بررسی کامل modulus-11 را روی هر رشته کاندید اجرا کنید. آن را هم روی متن تمیز و هم خروجی OCR اعمال کنید.
شناسایی نام دانمارکی: از یک مدل آموزشدیده روی متن دانمارکی استفاده کنید. مدل spaCy da_core_news یک گزینه است. یک مدل عمومی انگلیسی نامهای دانمارکی و نامهای سازمانی را از دست میدهد.
سوابق شناساییزدایی: بنویسید چه چیزی حذف شد، چه چیزی گروهبندی شد، و اندازه گروه خروجی. سازمان این را در فرم فنی میخواهد، نه به عنوان یادداشت سیاستی.
برای دادههای مربوط به هزینه حوادث داده بهداشتی، تحلیل هزینه نقض بهداشتی ما را ببینید.