כלי PII לאנגלית בלבד: פער ה-GDPR
ל-GDPR אין העדפת שפה
GDPR מכסה נתונים אישיים בכל שפה. גרמנית, צרפתית, פולנית, שוודית — כולן מכוסות באופן שווה. Steuer-ID שהוחמץ יוצר את אותו סיכון משפטי כמו מספר ביטוח לאומי שהוחמץ. החוק אינו מתחשב בשפה.
רוב כלי זיהוי ה-PII כן מתחשבים.
הכלים המסחריים והקוד-פתוח המובילים נבנו לטקסט אנגלי. גלאי הישויות שלהם משקפים זאת. הם מכסים היטב מספרי ביטוח לאומי אמריקאיים, רישיונות נהיגה אמריקאיים ופורמטי טלפון NANP. גלאים לתעודות לאומיות שאינן אנגלית פחות מדויקים. הם מתוחזקים פחות. הם מחמיצים מזהים אמיתיים לעתים קרובות יותר.
עבור חברות ברחבי מדינות חברות ב-EU, זה יוצר פער כיסוי. הכלי אומר שהזיהוי מלא. אך מזהים שאינם אנגליים נשארים בנתונים. אלה לעתים קרובות המזהים עם החשיפה הגדולה ביותר ל-GDPR במדינות מסוימות.
רשויות הנתונים רואות זאת. מבקרים מחפשים זאת. כלי יכול לעבוד היטב על רשומות אנגליות. אך אם הוא כושל על רשומות גרמניות או צרפתיות, הוא אינו תואם. דו"ח נקי אינו משנה זאת.
תעודות לאומיות שונות במבנה
הפער בין כלים ממוקדי-אנגלית לכלים רב-לשוניים אינו עניין של הוספת דפוסי regex נוספים. מזהים לאומיים ב-EU שונים מאוד זה מזה. הם זקוקים להיגיון ספציפי לכל מדינה כדי להיות מזוהים נכון.
Steuer-Identifikationsnummer גרמנית (Steuer-ID): 11 ספרות. היא משתמשת בסיכום בדיקה המבוסס על וריאנט נוסחת Luhn. regex גנרי ל-SSN לא יתאים לה. regex לכל מספר בן 11 ספרות יוצר יותר מדי תוצאות חיוביות שגויות במסמכים גרמניים.
NIR צרפתי (Numéro d'inscription au répertoire): 15 ספרות. הפורמט מקודד מין, שנת לידה, חודש לידה ומחלקת לידה. הוא כולל גם סדר לידה ומפתח בקרה דו-ספרתי. מפתח הבקרה חייב להיות מאומת לצורך זיהוי נכון.
Personnummer שוודי: 10 ספרות עם ספרת בדיקה Luhn. אנשים שנולדו לפני 1990 משתמשים במפריד + במקום -. זה משנה את הפורמט שצריך לזהות.
PESEL פולני: 11 ספרות. הוא מקודד תאריך לידה, מין וספרת בדיקה המבוססת על סכומים משוקללים. זיהוי נכון דורש גם התאמת פורמט וגם אימות סיכום בדיקה.
אלה אינם וריאנטים של דפוס משותף. לכל אחד אורך שונה. כל אחד משתמש בשיטת בדיקה שונה. כל אחד מקודד נתונים בתכנית מיקום שונה. מודל NER שאומן על אנגלית הרואה NIR צרפתי לא יזהה אותו כמזהה לאומי. הוא יתעלם ממנו או יסווג אותו בטעות.
סיכון התאימות המעשי
שקול קצין תאימות ב-BPO אירופאי. הם מעבדים נתונים מגרמניה, צרפת, פולין והולנד בו-זמנית. הכלי שלהם מדווח על אנונימיזציה מוצלחת של PII.
אך התוצאה אינה מלאה. Steuer-IDs ברשומות גרמניות נשארים. מספרי NIR ברשומות צרפתיות נשארים. מספרי PESEL ברשומות פולניות נשארים. גלאי הכלי לפורמטים אלה נעדרים או לא מדויקים מספיק.
מאוחר יותר, מערך הנתונים עובר לאנליטיקה או לשותף מחקר. הנתונים עדיין מכילים מזהים מחדש. ארגונים שעוברים ביקורת ימצאו שה"אנונימיזציה" שלהם לא כיסתה את כל המזהים הלאומיים הנדרשים לפי GDPR — ולא מהסיבה שהכלי נכשל בכלל, אלא מהסיבה שהוא מעולם לא נבנה לכסות אותם.
כיסוי רב-לשוני אינו אופציונלי. הוא חלק ממה ש-Article 32 דורש.