CNIL צרפת: דרישות כלי PII של רשות הגנת הנתונים
ה-CNIL של צרפת היא גוף הנתונים הדורשני ביותר באיחוד האירופי. רוב רגולטורי האיחוד כותבים כללים רחבים. CNIL הולכת רחוק יותר. היא מפרסמת הנחיות טכניות מדויקות הנקראות recommandations שקובעות סטנדרטים מדויקים לאנונימיזציה ושימוש בנתוני AI.
הודעות CNIL ב-2024 ציינו לעיתים קרובות אנונימיזציה חלשה במערכות AI. הסוכנות קיבלה 16,433 תלונות ב-2023 — 43% יותר מ-2022.
הנחיות CNIL מעצבות מדיניות האיחוד האירופי
הטקסטים הטכניים של CNIL מצוטטים על ידי רשויות הגנת נתונים אחרות באיחוד האירופי. שני מדריכים חשובים במיוחד.
Guide pratique de l'anonymisation (2023): מדריך זה מכסה k-anonymity, l-diversity ופרטיות דיפרנציאלית. הוא מראה כיצד להשתמש בכל שיטה על נתונים צרפתיים. ה-IMY השוודי וגופים אירופיים אחרים מצטטים אותו בכלליהם.
הנחיית מערכות AI (2024): CNIL מפרטת שישה סוגי נתונים שיש לטפל בהם באימון AI. אף רשות הגנת נתונים אחרת באיחוד האירופי לא הגיעה עד כה בנושא AI.
כללי עוגיות: הנחיית עוגיות CNIL קובעת את הרף הטכני הגבוה ביותר לכלי הסכמה באיחוד האירופי. היא מתעדכנת לעיתים קרובות.
ה-NIR: המזהה הרגיש ביותר של צרפת
ה-Numéro d'Inscription au Répertoire (NIR) — הנקרא גם numéro de sécurité sociale — הוא מספר ביטוח לאומי צרפתי בן 15 ספרות.
הפורמט שלו הוא: S AA MM DD CCC OOO K
- S — 1 ספרה: מין
- AA — שנת לידה
- MM — חודש לידה
- DD — מחוז לידה (01–95, 2A/2B לקורסיקה, 97–99 לאזורים מעבר לים, 99 לזרים)
- CCC — קוד עיריה
- OOO — סדר לידה
- K — מפתח ביקורת בן 2 ספרות (97 − (NIR mod 97))
ה-NIR מכיל מין, תאריך לידה ומקום לידה במספר אחד. CNIL מתייחסת אליו כבעל סיכון גבוה. הוא דורש את אותה רמת טיפול כמו נתוני קטגוריה מיוחדת לפי סעיף 9 של GDPR.
מדוע כלים מחמיצים NIR: כלי NLP גנריים נכשלים ב-NIR משלושה טעמים. ראשית, 15 הספרות (הנכתבות לעיתים ללא רווחים) נראות כמו מספרים ארוכים אחרים. שנית, ספרות 7–11 מכילות קוד מחוז. כלים שדולגים על בדיקת mod-97 מאפשרים חיוביים שגויים. שלישית, מחוזות קורסיקה משתמשים ב-2A ו-2B, לא בספרות בלבד. כלים שנבנו לתבניות ספרות בלבד נכשלים כאן.
זיהוי NIR טוב דורש שלושה דברים: בדיקת מפתח mod-97, ספר קודים גיאוגרפי וכללים המודעים לקורסיקה.
ראו את סקירת העמידה באבטחה שלנו לאופן ייחוס כיסוי מזהים למחסנית הגנת GDPR.
SIREN ו-SIRET: מזהי עסקים בתיקים אישיים
SIREN: מזהה חברה צרפתי בן 9 ספרות עם ספרת ביקורת Luhn. מופיע בכל המסמכים המסחריים הצרפתיים.
SIRET: מספר בן 14 ספרות הבנוי מ-SIREN (9 ספרות) בתוספת קוד מוסד (5 ספרות). SIRET מזהה אתר; SIREN מזהה חברה.
תיקי עסקים מכילים לעיתים קרובות מספרי SIRET לצד שמות עובדים. CNIL מתייחסת ל-SIRET בשילוב שם כנתונים אישיים. זוג זה מפעיל את כללי GDPR גם ללא שדה נתונים אישיים נפרד.
שישה שלבי אנונימיזציה לאימון AI
הנחיית AI של CNIL לשנת 2024 מכסה שישה סוגי נתונים. יש לטפל בכל אחד לפני שימוש ברשומות אישיות צרפתיות באימון AI:
- הסרת מזהים ישירים — שמות, NIR, SIREN חייבים להיות מוחלפים או מוסרים
- הכללת מזהי מה-שכמעט — גיל, מחוז, מקצוע יכולים להצטרף לזיהוי אנשים; הפחיתו את הדיוק שלהם
- הוספת רעש למספרים — שדות מספריים דורשים רעש מכוייל לחסימת הסקה
- בדיקת k-anonymity — כל אדם חייב להיראות כמו k-1 אחרים לפחות; CNIL מציינת k ≥ 5
- בדיקת l-diversity — מאפיינים רגישים חייבים להשתנות בתוך כל קבוצה
- הפעלת בדיקת סיכון זיהוי מחדש — השתמשו בשיטה מתועדת לפני כל שחרור נתונים
הסרת NIR ושם מלא בלבד אינה מספיקה. CNIL מצאה זאת באכיפה. מזהים כמו-מה-שכמעט כגון מיקוד ומומחיות רפואית דורשים גם הם טיפול.
מדריך העמידה ב-GDPR שלנו מכסה את הרשומות שביקורות DPA צרפתיות מצפות לראות.
הקשר שפה לזיהוי PII צרפתי
לצרפת יש מספר הקשרי שפה המשפיעים על הזיהוי.
צרפתית סטנדרטית היא שפת כל המסמכים הרשמיים. מודלי NER חייבים לטפל באותיות מוטעמות: é, è, ê, ë, à, â, î, ô, û, ç, œ.
שטחי מעבר לים (DOM-TOM): מרטיניק, גוודלופ, ראוניון, גיאנה ומיוט משתמשות בקודי NIR בטווח 97–98. תבניות שמות מקומיות שונות מצרפת המטרופולין.
אלזס-מוזל: שמות ממוצא גרמני ופורמטים גרמניים מסוימים מופיעים ברשומות צרפתיות. מודלים שאומנו רק על צרפתית סטנדרטית עלולים להחמיץ אלה.
שימוש חוצה גבולות: הצרפתית הבלגית משתמשת בפורמט מזהה שונה. כלים המשמשים בצרפת ובלגיה דורשים כללים לכל אחת מהן.
מה הכלי שלכם חייב לכסות
עמידה צרפתית דורשת ארבע יכולות טכניות:
- NIR עם בדיקת mod-97 — התאמת תבנית בלבד נכשלת. כלים חייבים להפעיל את בדיקת המפתח ולטפל בקודי 2A/2B.
- SIREN/SIRET עם בדיקת Luhn — מזהי עסקים מופיעים בתיקים אישיים ויוצרים שילובי שמות הכפופים ל-GDPR.
- NER צרפתית עם תמיכה מלאה בהטעמה — חייבת לטפל בשמות מורכבים (Jean-Pierre), חלקיקים (de, du, des) ותווים מוטעמים.
- תהליך מתועד של שישה שלבים — כל צינור אימון AI על נתונים צרפתיים דורש רשומה כתובה לכל פעילות אנונימיזציה.