بروزرسانی برای ۲۰۲۶

سازمان نظارتی داده دانمارک، Datatilsynet، در سال ۲۰۲۴ ۳۱ تصمیم GDPR صادر کرد. چهارده تا مربوط به داده‌های بهداشتی بود. این سهم بالا دو واقعیت را منعکس می‌کند: دانمارک یک سیستم بهداشت ملی بزرگ اداره می‌کند، و شکاف‌های فنی در آن سیستم به پخش شدن پرونده‌های بیمار ادامه می‌دهد.

قانون رقم کنترلی برای شماره‌های CPR

شماره CPR شناسه شخصی دانمارک است. این عدد ۱۰ رقمی با قالب DDMMYY-XXXX است. شش رقم اول تاریخ تولد هستند. چهار رقم آخر یک کد به علاوه یک رقم کنترلی هستند.

رقم کنترلی از قانون modulus-11 استفاده می‌کند:

ارقام ۱ تا ۹ را بگیرید.
به هر کدام یک وزن بدهید: ۴، ۳، ۲، ۷، ۶، ۵، ۴، ۳، ۲.
هر رقم را در وزن آن ضرب کنید. همه نتایج را جمع بزنید.
بر ۱۱ تقسیم کنید. باقیمانده را یادداشت کنید.
باقیمانده ۰ → رقم کنترلی ۰ است.
باقیمانده ۱ → عدد معتبر نیست.
باقیمانده ۲–۱۰ → رقم کنترلی ۱۱ منهای باقیمانده است.

این قانون برای هر ابزاری که شماره‌های CPR را اسکن می‌کند اهمیت دارد. برخی رشته‌های DDMMYY-XXXX هرگز نمی‌توانند معتبر باشند. ابزارهایی که این مرحله را نادیده می‌گیرند تاریخ‌ها، کدهای فاکتور، و شماره‌های مرجع را به عنوان شناسه‌های واقعی علامت‌گذاری می‌کنند.

بررسی ۲۰۲۴ این سازمان نشان داد که ۶۷٪ از ابزارهای عمومی NLP این بررسی را نادیده می‌گیرند. این شکاف اصلی‌ترین شکست فنی در پرونده‌های بهداشتی آن است.

پنج ثبت بهداشتی دانمارک

دانمارک داده‌های بهداشتی را در پنج ثبت ملی پیوند می‌زند. شناسه شخصی همه پنج را به هم متصل می‌کند.

سوابق ترخیص بیمارستان (از ۱۹۷۷)
داده‌های نسخه (از ۱۹۹۵)
ثبت سرطان (از ۱۹۴۳)
ثبت علت مرگ (از ۱۹۷۰)
تشخیص‌های مراقبت اولیه (از ۱۹۹۰)

این تحقیقات بهداشتی دانمارکی را بسیار قوی می‌کند. همچنین یک خطر ایجاد می‌کند. حذف شناسه خام کافی نیست. یک مجموعه داده که هنوز سن، جنس، تشخیص، و سال را نگه می‌دارد می‌تواند افراد را مجدداً افشا کند — به ویژه آنهایی که بیماری‌های نادر دارند.

راهنمای ۲۰۲۴ Datatilsynet درباره استفاده ثانویه از داده‌های بهداشتی سه الزام تعیین می‌کند.

بنویسید با داده چه کردید: فهرست کنید کدام فیلدها را حذف کردید، کدام‌ها را گرد کردید یا گروه‌بندی کردید، و خروجی چه اندازه گروهی دارد. یک یادداشت سیاستی این استاندارد را برآورده نمی‌کند.

برای مجموعه‌های بزرگ بررسی خارجی دریافت کنید: برای مجموعه داده‌هایی با بیش از ۵,۰۰۰ نفر، سازمان یک بررسی فنی مستقل از مراحل شناسایی را توصیه می‌کند.

داده را با سؤال مطابقت دهید: مجموعه داده باید با هدف تحقیقاتی اعلام‌شده مطابقت داشته باشد. سازمان مواردی پیدا کرد که تیم‌ها از ثبت‌های ملی کامل استفاده می‌کردند در حالی که یک نمونه کوچکتر کافی بود.

برای نحوه اعمال قوانین رقم کنترلی به قالب‌های شناسه اروپایی دیگر، راهنمای شناسایی شناسه ملی اتحادیه اروپا ما را ببینید.

آنچه پرونده‌های ۲۰۲۴ یافتند

چهارده پرونده بهداشتی سه نوع شکست مشترک را به اشتراک می‌گذارند.

اشتراک‌گذاری داده‌های تحقیقاتی: یک بیمارستان یک مجموعه داده بیمار ناشناس‌شده را برای آموزش هوش مصنوعی به یک شریک دانشگاهی ارسال می‌کند. این مجموعه بخش‌های تاریخ تولد، کدهای تشخیص، و تاریخ‌های درمان را دارد. سازمان می‌یابد که این ترکیب بیماران با بیماری‌های نادر را مجدداً افشا می‌کند. تشخیص‌های غیرمعمول استخر را سریع محدود می‌کنند.

خدمات هوش مصنوعی شخص ثالث: یک شرکت فناوری بهداشت یادداشت‌های بیمار را برای کار با سوابق بالینی به یک سرویس هوش مصنوعی مستقر در آمریکا ارسال می‌کند. شناسه‌های شخصی در آن یادداشت‌ها اول حذف نشده‌اند. هیچ مکانیزم انتقال معتبری وجود ندارد.

شکاف‌های خط لوله OCR: یک بیمه‌گر فرم‌های PDF اسکن‌شده برای ادعاهای ناتوانی را پردازش می‌کند. ابزار OCR آن تصاویر را به متن تبدیل می‌کند. اما آزمون‌های رقم کنترلی را روی خروجی اجرا نمی‌کند. بسیاری از شناسه‌ها از دست می‌روند.

OCR اغلب در وسط عدد فاصله درج می‌کند یا خط فاصله را جابه‌جا می‌کند. تطابق الگوی ساده روی آن خروجی شکست می‌خورد. شناسایی باید روی متن OCR کار کند، نه فقط ورودی تمیز. برای مراحل رسیدگی به اسناد اسکن‌شده، راهنمای شناسایی PII بهداشتی OCR ما را ببینید.

سه ضرورت فنی

این سه عنصر پایه انطباق GDPR بهداشت دانمارکی را تشکیل می‌دهند.

آزمون‌های رقم کنترلی روی همه متون: بررسی کامل modulus-11 را روی هر رشته کاندید اجرا کنید. آن را هم روی متن تمیز و هم خروجی OCR اعمال کنید.

شناسایی نام دانمارکی: از یک مدل آموزش‌دیده روی متن دانمارکی استفاده کنید. مدل spaCy da_core_news یک گزینه است. یک مدل عمومی انگلیسی نام‌های دانمارکی و نام‌های سازمانی را از دست می‌دهد.

سوابق شناسایی‌زدایی: بنویسید چه چیزی حذف شد، چه چیزی گروه‌بندی شد، و اندازه گروه خروجی. سازمان این را در فرم فنی می‌خواهد، نه به عنوان یادداشت سیاستی.

برای داده‌های مربوط به هزینه حوادث داده بهداشتی، تحلیل هزینه نقض بهداشتی ما را ببینید.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

CPR دانمارک: اعتبارسنجی Modulus-11 برای GDPR

قانون رقم کنترلی برای شماره‌های CPR

پنج ثبت بهداشتی دانمارک

آنچه پرونده‌های ۲۰۲۴ یافتند

سه ضرورت فنی

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

CPR دانمارک: اعتبارسنجی Modulus-11 برای GDPR

شماره‌های CPR دانمارک: راهنمای انطباق GDPR

قانون رقم کنترلی برای شماره‌های CPR

پنج ثبت بهداشتی دانمارک

آنچه پرونده‌های ۲۰۲۴ یافتند

سه ضرورت فنی

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow