חזרה לבלוגGDPR ועמידה

דנמרק CPR: אימות מודולוס-11 ל-GDPR

67% מכלי NLP מפספסים אימות מודולוס-11 של מספר CPR דני. 14 פעולות אכיפה בתחום הבריאות של Datatilsynet ב-2024. שימוש משני בנתוני בריאות.

May 14, 20267 דקות קריאה
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

הרשות הדנית להגנת נתונים Datatilsynet הוציאה 31 החלטות אכיפה GDPR ב-2024, כאשר 14 מהן כרכו ספציפית במערכות נתוני בריאות — ריכוז המשקף את ההימור הגבוה של תשתית נתוני הבריאות הלאומית המקיפה של דנמרק והכשלים הטכניים שחושפים שוב ושוב נתוני מטופלים.

מספר CPR: דרישת מודולוס-11

מספר CPR (Det Centrale Personregister-nummer) — 10 ספרות, פורמט DDMMYY-XXXX — מקודד תאריך לידה (ספרות 1-6) ומספר רצפי עם ספרת ביקורת (ספרות 7-10). הספרה האחרונה מאומתת באמצעות אריתמטיקת מודולוס-11:

בדיקת מודולוס-11: הכפל ספרות 1-9 במשקלים (4,3,2,7,6,5,4,3,2), סכם, לקח מודולוס 11. אם התוצאה היא 0, ספרת הביקורת = 0. אם התוצאה היא 1, ה-CPR אינו תקין (לא קיימת ספרת ביקורת תקינה לקידומת זו). אחרת, ספרת הביקורת = 11 פחות תוצאה.

זה יוצר את התכונה החשובה שחלק מתבניות DDMMYY-XXXX לא יכולות להיות מספרי CPR תקינים (אלה שחישוב מודולוס-11 מייצר עבורן 1). כלים שמתאימים מספרים בני 10 ספרות בפורמט DDMMYY-XXXX ללא אימות מודולוס-11 מייצרים חיוביים שגויים ממחרוזות תאריך, מספרי הפניה וקודי חשבוניות.

67% מכלי NLP הגנריים חסרים יישום CPR מודולוס-11 (Datatilsynet 2024). כישלון זיהוי זה הוא הבעיה הטכנית הלא-מספיקה הבודדת המצוטטת ביותר בפעולות האכיפה בתחום הבריאות של Datatilsynet.

המערכת האקולוגית של מחקר נתוני הבריאות בדנמרק

רישומי הבריאות של דנמרק — בין מערכי הנתונים הבריאותיים הלאומיים האורכיים המלאים ביותר בעולם — מקושרים דרך מספר CPR. ה-CPR מאפשר לחוקרים לקשר:

  • רשומות שחרור בבתי חולים (מ-1977)
  • מסד נתוני מרשמים (מ-1995)
  • רישום סרטן (מ-1943)
  • רישום סיבות מוות (מ-1970)
  • נתוני אבחנה טיפול ראשוני (מ-1990)

קישוריות זו הופכת את המחקר הבריאותי הדני לברמה עולמית, אך יוצרת סיכון זיהוי מחדש שה-Datatilsynet לוקחת ברצינות: אפילו מערכי נתונים "מדה-מזוהים" השומרים על תכונות מקושרות CPR (גיל, מין, אבחנה, שנה) ניתנים לזיהוי מחדש בשילוב עם מערכי נתונים אחרים.

הנחיית Datatilsynet ל-2024 בנוגע לשימוש משני בנתוני בריאות דורשת שארגונים המשתמשים ברישומים אלה יוכיחו:

תיעוד אנונימיזציה טכנית: לא הצהרת מדיניות, אלא תיעוד טכני המציג בדיוק אילו מזהים הוסרו, אילו מזהים משניים הוכללו, ואיזה רמת k-anonymity הושגה במערך הנתונים הפלט.

אימות צד שלישי למערכי נתונים למחקר: עבור מערכי נתונים למחקר עם יותר מ-5,000 אנשים, ה-Datatilsynet ממליצה על סקירה טכנית עצמאית של נהלי האנונימיזציה.

מינימיזציית נתונים: היקף מערך הנתונים למחקר חייב להתאים לשאלת המחקר המתועדת. ה-Datatilsynet מצאה מספר מקרים בהם חוקרים השתמשו ברישומים לאומיים מלאים כאשר מדגם אקראי או מערך נתונים מוגבל גאוגרפית היה משרת את מטרת המחקר.

ממצאי אכיפת בריאות ספציפיים

14 החלטות האכיפה בתחום הבריאות של Datatilsynet ב-2024 מתעדות כשלים טכניים חוזרים:

תבנית מקרה 1: בית חולים מעביר מערך נתוני מטופלים מדה-מזוהים לשותף מחקר אקדמי לאימון AI. מערך הנתונים מכיל רכיבי תאריך לידה CPR, קודי אבחנה ותאריכי טיפול. ה-Datatilsynet מוצאת שהשילוב מאפשר זיהוי מחדש של חולי מחלות נדירות (בעיית מכנה קטן — אבחנות יוצאות דופן מצמצמות את הזיהוי משמעותית).

תבנית מקרה 2: חברת טכנולוגיית בריאות מעבדת נתוני מטופלים דניים דרך API של AI מבוסס ארה"ב לתמיכה בתיעוד קליני. מספרי CPR ברישומים רפואיים מועברים לשרתים אמריקאיים ללא מנגנון העברה מספיק וללא זיהוי והסרת CPR מוקדמים.

תבנית מקרה 3: חברת ביטוח מעבדת נתוני תעודות רפואיות לתביעות נכות. מספרי CPR בתעודות PDF סרוקות אינם מזוהים על ידי צינור ה-OCR-פלוס-חילוץ של החברה (OCR ממיר תמונה לטקסט; הטקסט מעובד אך ללא אימות CPR, מספרי CPR רבים מפוספסים בפלט OCR בשל ארטיפקטים של פורמט).

מצב כישלון OCR-פלוס-חילוץ נפוץ במיוחד בהקשרי בריאות שבהם מסמכים מתקבלים כתמונות סרוקות. זיהוי CPR חייב לעבוד על טקסט שעובד על ידי OCR, שלעיתים קרובות מציג חוסרי עקביות בפורמט (רווחים המוכנסים באמצע מספר, שגיאות במיקום מקף) השוברות התאמת תבניות פשוטה.

לעמידה ב-GDPR לבריאות דנמרק: זיהוי CPR עם אימות מודולוס-11 הן בטקסט נקי והן בפלט שעובד על ידי OCR, NER בשפה הדנית (spaCy da_core_news), ותיעוד אנונימיזציה טכני העומד בתקני השימוש המשני של ה-Datatilsynet ל-2024 הם הדרישות המינימליות.

מקורות:

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.