חזרה לבלוגGDPR ועמידה

ANSPDCP רומניה: זיהוי CNP ואימות

ANSPDCP מצאה ש-78% מהכלים מפספסים CNP רומני עם אימות תקין. CNP מקודד מגדר, תאריך לידה ומחוז לידה — השלכות על קטגוריות מיוחדות ב-GDPR.

May 14, 20267 דקות קריאה
Romania ANSPDCPCNP checksum validationRomanian GDPRBPO complianceRomanian identifiers

רשות הגנת הנתונים הרומנית Autoritatea Națională de Supraveghere a Prelucrării Datelor cu Caracter Personal (ANSPDCP) פרסמה הערכה טכנית לשנת 2024 עם ממצא בולט: 78% מכלי PII הנפרסים בפעולות מיקור חוץ רומניות אינם מצליחים לזהות את Cod Numeric Personal (CNP) עם אימות checksum תקין. עבור מדינה המעבדת נתוני אזרחי EU בהיקף גדול עבור לקוחות מערב אירופיים, פער זה יוצר חשיפת תאימות מערכתית.

CNP: המזהה האישי העשיר ביותר של רומניה

ה-CNP הוא מספר זיהוי לאומי בן 13 ספרות:

  • ספרה 1: קוד מגדר ומאה (1=גבר 1900-1999, 2=אישה 1900-1999, 5=גבר 2000+, 6=אישה 2000+, 7=גבר תושב זר, 8=אישה תושב זרה, 9=תושב אחר)
  • ספרות 2-3: שתי ספרות אחרונות של שנת לידה
  • ספרות 4-5: חודש לידה (01-12)
  • ספרות 6-7: יום לידה (01-31)
  • ספרות 8-9: קוד מחוז (01-52, המתאים ל-41 מחוזות רומניה + מגזרי בוקרשט)
  • ספרות 10-12: מספר לידה רצפי בתוך יום ומחוז
  • ספרה 13: ספרת ביקורת (סכום משוקלל מודולוס 11)

ה-CNP מקודד מגדר, תאריך לידה (מלא), מחוז לידה ומעמד אזרחות — מה שהופך אותו לאחד ממזהי הזהות הלאומיים העשירים ביותר במידע באירופה. קידוד המגדר בספרה 1 הופך את ה-CNP לאינדיקטור קטגוריה מיוחדת בפועל לפי סעיף 9 ל-GDPR (חושף מין ביולוגי), הדורש הגנה מוגברת.

אימות checksum: אלגוריתם ספרת הביקורת מכפיל את 12 הספרות הראשונות במשקלים (2,7,9,1,4,6,3,5,8,2,7,9), מסכם את המכפלות, לוקח מודולוס 11. אם התוצאה היא 10, ספרת הביקורת היא 1. אם התוצאה היא 11, ה-CNP אינו תקין. אחרת, ספרת הביקורת שווה לתוצאה.

78% מהכלים מפספסים אימות זה — מייצרים הן חיוביים שגויים (כל מספר בן 13 ספרות מסומן) והן שליליים שגויים.

NER בשפה הרומנית: השכבה החסרה

מעבר ל-CNP, עיבוד שפה רומנית יוצר אתגרי NER ספציפיים:

תגי ניקוד רומניים: הרומנית משתמשת בתווים ș (ס עם צדי), ț (ת עם צדי), ă, â ו-î. כלים המאומנים על טקסט שאינו רומני עשויים להיכשל בזיהוי שמות רומניים המכילים תווים אלה. בעיות קידוד (UTF-8 לעומת Latin-2) במסמכים רומניים ישנים יוצרות אתגרי זיהוי נוספים.

פורמטי כתובת רומניים: "Strada" (מקוצר "Str."), "Bulevardul" (מקוצר "Bd."), "Aleea" (מקוצר "Al."), "Calea" (מקוצר "Cal.") לסוגי רחוב. מקומות ישוב רומניים כוללים הן ערים (municipii) והן קומונות (comune) עם מוסכמות שמות השונות מפורמטי כתובת מערב אירופאיים.

תבניות שמות רומניות: שמות רומניים עוקבים אחר מוסכמות פטרונימיות ודקדוקיות ספציפיות. אותו שם מופיע בנטיות דקדוקיות שונות בהתאם לתפקידו הדקדוקי במשפט (נומינטיב, גניטיב-דטיב). מודלי NER חייבים לטפל בשינויי נטייה כדי לזהות שמות רומניים בצורה נכונה על פני הקשרי מסמכים.

תבנית האכיפה של ANSPDCP

מקרי האכיפה של ANSPDCP עוקבים אחר תבנית עקבית החושפת את הכשלים הטכניים הספציפיים המובילים להפרות:

מקרי הפרת נתוני BPO: ארגון מוקד טלפוני או תמיכת IT סובל מהפרת נתונים. החקירה חושפת שקבצים משותפים המכילים מספרי CNP של עובדים רומניים ונתוני לקוחות EU אוחסנו ללא הצפנה מספיקה. הערכת היקף הפרה מופרעת על ידי רישום לא מספיק — הארגון לא יכול לקבוע בדיוק לאיזה רשומות ניגש.

חשיפת נתוני בריאות: רשומות מטופלים המכילות מספרי CNP, מספרי כרטיס בריאות ומידע אבחנה מועברות בשוגג לצדדים לא מורשים. מספרי CNP לא זוהו ולא עברו פסאודונימיזציה לפני שיתוף כיוון שכלי PII של הארגון לא כלל תמיכה במזהים רומניים.

העברה חוצת גבולות ללא אמצעי הגנה: ארגון BPO רומני מעביר נתוני לקוחות EU (כולל רשומות קשורות ל-CNP) למעבד משנה הודי לצורכי הזנת נתונים או עיבוד, ללא הערכת השפעת העברה מספיקה ותנאים חוזיים סטנדרטיים. מספרי CNP בקבצים שהועברו יוצרים חשיפת קטגוריה מיוחדת של GDPR.

לעמידה ב-GDPR הרומני: זיהוי CNP עם אימות checksum מודולוס-11, NER בשפה הרומנית עם עיבוד מודע לתגי ניקוד, וזיהוי תעודת זהות לאומית רומנית הם הבסיס הטכני שרשומות האכיפה של ANSPDCP מראות כנדרש.

מקורות:

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.