חוק הגנת הנתונים הכללי הברזילאי Lei Geral de Proteção de Dados (LGPD) הוא מסגרת הגנת הנתונים השלישית בגודלה בעולם לפי אוכלוסייה מכוסה — 215 מיליון ברזילאים, יותר מגרמניה, צרפת ובריטניה ביחד. הרשות הלאומית להגנת נתונים Autoridade Nacional de Proteção de Dados (ANPD) הוציאה את פעולות האכיפה המרכזיות הראשונות שלה ב-2024, ומסמנת את סיום תקופת הגרייס שלאחר חקיקת ה-LGPD ב-2020.
האתגר התאימות הטכני הוא ייחודי: פורטוגזית ברזילאית היא שפת מסמכי ה-LGPD, אך המזהים הלאומיים הברזילאיים שונים לחלוטין ממזהי הפורטוגזית האירופית — ומכל מערכת זיהוי לאומית אחרת בעולם.
מדוע PII ברזילאי שונה מבחינה טכנית
מערכות הזיהוי הפדרלי והמדינתי הברזילאיות התפתחו בנפרד ממסגרות הזהות הדיגיטלית האירופיות. התוצאה היא מערך מורכב של מזהים שכלי NLP גנריים — רוב המאומנים על נתונים באנגלית או בשפות אירופיות — אינם מצליחים לזהות:
CPF (Cadastro de Pessoas Físicas): רישום נישום פרטני בן 11 ספרות הוא המזהה האוניברסלי לאזרח ברזיל. פורמט: XXX.XXX.XXX-XX עם שתי ספרות ביקורת. אלגוריתם ספרת הביקורת של CPF משתמש בשני חישובי אריתמטיקה מודולרית נפרדים — אם שתי ספרות הביקורת תואמות, ה-CPF תקין.
הבעיה הטכנית: CPF מזוהה בדיוק של 45% בלבד על ידי כלי NLP המאומנים באנגלית (הערכה טכנית של ANPD 2024). הכשלים: כלים שמתאימים תבניות של 11 ספרות ללא אימות ספרת הביקורת הדו-שלבי אינם יכולים להבחין בין מספרי CPF תקינים לרצפים אקראיים; ו-CPF מופיע במסמכים ברזילאיים ללא פורמט XXX.XXX.XXX-XX הסטנדרטי בחלק מהקשרים.
CNPJ (Cadastro Nacional da Pessoa Jurídica): מספר רישום חברה בן 14 ספרות. פורמט: XX.XXX.XXX/XXXX-XX עם שתי ספרות ביקורת המשתמשות באלגוריתמים דומים (אך לא זהים) ל-CPF.
RG (Registro Geral): מסמך זהות אזרחית שהוצא על ידי מדינות ברזיל. בניגוד ל-CPF (פדרלי, אחיד), הפורמט של RG משתנה לפי המדינה שמוציאה:
- סאו פאולו: 2 אותיות + 5-9 ספרות (למשל, MG-12.345.678)
- ריו דה ז'ניירו: 7-8 ספרות עם מקף
- מינאס ז'ריי: 7-9 ספרות
- מדינות אחרות: פורמטים שונים
כלי שמזהה רק את פורמט ה-RG של מדינה אחת מפספס את הרוב המכריע של מספרי RG במסמכים ברזילאיים.
CNH (Carteira Nacional de Habilitação): מספר רישיון נהיגה בן 11 ספרות עם ספרת ביקורת. ה-CNH מונפק ברמה פדרלית אך הפורמט כולל קידוד מחוז רישום.
Título de Eleitor (רישום בוחרים): מספר בן 12 ספרות עם 3 רכיבים — קוד זיהוי (8 ספרות), קוד מדינה (2 ספרות), ספרות ביקורת (2 ספרות).
מספר SUS (Cartão SUS): מספר מערכת בריאות מאוחדת בן 15 ספרות המוקצה לכל ברזילאי לצורך גישה לשירותי בריאות ציבוריים. מופיע בכל רשומות בתי החולים הציבוריים והטיפול הראשוני.
PIS/PASEP: מספר תוכנית שילוב חברתי בן 11 ספרות, המשמש בכל רשומות התעסוקה.
תקן האנונימיזציה של LGPD
סעיף 12 ל-LGPD מגדיר נתונים אנונימיים כנתונים "הנוגעים לנושא הנתונים שלא ניתן לזהות, בהתחשב בשימוש באמצעים טכניים סבירים הזמינים בעת העיבוד." זהו תקן יחסי לטכנולוגיה — מה שאנונימי היום עשוי שלא להיות אנונימי כשיתפתחו טכניקות זיהוי מחדש עתידיות.
הנחיית ANPD מבהירה שאנונימיזציה דורשת יותר מהסרת מזהים מפורשים (CPF, שם). שילובי מזהים משניים (טווח גיל, עיר, מגדר, מקצוע) עשויים לאפשר זיהוי מחדש ויש לטפל בהם דרך הכללה או הוספת רעש.
לנתוני אימון AI, ANPD דורש שהנתונים המשמשים לאימון LLM או מודלים של ML יהיו:
- אנונימיים באמת (עומדים בתקן הטכני של סעיף 12), או
- בעלי הסכמה מפורשת מכל נושא נתונים לשימוש האימון הספציפי, או
- כשירים תחת מטרה לגיטימית עם הצדקה מתועדת
דרישות שפת פורטוגזית ברזילאית
פורטוגזית ברזילאית שונה מפורטוגזית אירופית באוצר מילים, כתיב ומוסכמות מסמכים. מודלי NLP המאומנים על פורטוגזית אירופית (פורטוגל) מבצעים בדיוק של כ-71% בהשוואה למודלים המאומנים ספציפית על טקסט פורטוגזית ברזילאית (הערכה טכנית של ANPD).
הבדלים ספציפיים הרלוונטיים לזיהוי PII:
- מוסכמות שמות: שמות ברזילאיים עוקבים אחר תבניות שונות משמות פורטוגזיים. שמות משפחה ברזילאיים נפוצים (Silva, Santos, Oliveira, Souza) זהים, אך מוסכמות שמות (שמות משפחה כפולים, העדפות סדר) שונות.
- פורמטי כתובת: כתובות ברזילאיות משתמשות ב-"Rua", "Avenida", "Alameda", "Travessa" באופן דומה לפורטוגל, אך קוד CEP הדואר (פורמט 8 ספרות: XXXXX-XXX) הוא ייחודי לברזיל ודורש זיהוי קוד דואר ברזילאי.
- מינוח מסמכים: סוגי מסמכים ברזילאיים משתמשים במינוח שונה מפורטוגזית אירופית — "Carteira de Identidade" לעומת "Bilhete de Identidade" לתעודת זהות לאומית, שמות סוכנויות ממשלתיות שונים.
לעמידה ב-LGPD: CPF ו-CNPJ עם אימות ספרת ביקורת דו-שלבי, זיהוי פורמט RG של מספר מדינות, זיהוי מספר SUS ו-Título de Eleitor, ותמיכה במודל NLP בפורטוגזית ברזילאית הם הבסיס הטכני לעמידה בתקני ANPD.
מקורות: