LGPD ברזיל: CPF, CNPJ והגנת נתונים
חוק Lei Geral de Proteção de Dados (LGPD) של ברזיל מכסה 215 מיליון אנשים. הוא חוק הגנת הנתונים הגדול בעולם לפי אוכלוסייה. הוא מכסה יותר אנשים מגרמניה, צרפת ובריטניה ביחד. ה-Autoridade Nacional de Proteção de Dados (ANPD) הוציאה את קנסותיה הגדולים הראשונים ב-2024. תקופת החסד לאחר חקיקת LGPD ב-2020 הסתיימה.
יש גם אתגר טכני. מסמכי LGPD הם בפורטוגזית ברזילאית. מזהים לאומיים בברזיל שונים מאלה שבפורטוגל. הם גם שונים ממזהים של כל מדינה אחרת.
מדוע PII ברזילאי שונה
מערכות המזהה הפדרליות והמדינתיות של ברזיל התפצלו ממערכות זהות דיגיטליות אירופיות. זה יצר קבוצה ייחודית של מזהים. רוב כלי NLP מאומנים על נתונים אנגליים או אירופיים. הם נכשלים בזיהוי מזהים מקומיים.
CPF (Cadastro de Pessoas Físicas): מספר משלם המסים בן 11 ספרות. פורמט: XXX.XXX.XXX-XX. יש לו שתי ספרות ביקורת. הנוסחה משתמשת בשני שלבים מתמטיים נפרדים. שניהם חייבים להתאים כדי ש-CPF יהיה תקף.
פער הזיהוי גדול. כלי NLP שאומנו על אנגלית מזהים CPF ב-45% דיוק בלבד (ANPD, 2024). שני טעמים מסבירים זאת. ראשית, כלים שמתאימים מספרים בני 11 ספרות ללא לוגיקת ספרת ביקורת דו-שלבית מבלבלים מספרי CPF תקפים עם רצפים אקראיים. שנית, CPF לעיתים חסר את הפורמט XXX.XXX.XXX-XX. זה קורה בפלט OCR ובטפסי טקסט רגיל.
CNPJ (Cadastro Nacional da Pessoa Jurídica): מספר מזהה חברה בן 14 ספרות. פורמט: XX.XXX.XXX/XXXX-XX. גם לו שתי ספרות ביקורת. הנוסחה דומה ל-CPF אך אינה זהה.
RG (Registro Geral): תעודת זהות האזרחית המדינתית. הפורמט משתנה לפי מדינה. סאו פאולו משתמש ב-2 אותיות ו-5–9 ספרות. ריו דה ז'ניירו משתמש ב-7–8 ספרות עם מקף. מינאס ז'ריאיס משתמש ב-7–9 ספרות. למדינות אחרות יש פורמטים משלהן. כלי שמכיר רק את ה-RG של מדינה אחת יחמיץ את רוב מספרי RG.
CNH (Carteira Nacional de Habilitação): מספר רישיון הנהיגה בן 11 ספרות. יש לו ספרת ביקורת אחת. הפורמט כולל קוד מחוז.
Título de Eleitor: מספר תעודת המצביע בן 12 ספרות. יש לו שלושה חלקים: קוד מזהה בן 8 ספרות, קוד מדינה בן 2 ספרות ו-2 ספרות ביקורת.
מספר SUS (Cartão SUS): מספר בריאות ציבורי בן 15 ספרות. כל אדם במדינה מקבל אחד. מופיע בכל רשומות בתי החולים והקליניקות.
PIS/PASEP: מספר תוכנית חברתית בן 11 ספרות. מופיע בכל רשומת עבודה.
תקן האנונימיזציה של LGPD
סעיף 12 של LGPD מגדיר נתונים אנונימיים. הסטנדרט: נתונים שלא ניתן לזהות, בהתחשב באמצעים טכניים סבירים בזמן העיבוד. זהו סטנדרט יחסי לטכנולוגיה. נתונים אנונימיים של היום עלולים שלא להישאר כך כאשר שיטות זיהוי מחדש ישתפרו.
ANPD מוסיפה הנחיות נוספות. הסרת מזהים ישירים כמו CPF ושם אינה מספיקה. קבוצות של מזהים כמה-שכמעט עדיין עלולות לאפשר זיהוי מחדש. טווח גיל, עיר, מגדר ועבודה יחד עלולים לזהות אדם. יש לטפל בהם על ידי קיבוץ או הוספת רעש.
לנתוני אימון AI, ANPD דורש אחד משלושה תנאים. ראשית: הנתונים עומדים בסטנדרט סעיף 12. שנית: כל נושא נתונים נתן הסכמה מפורשת לשימוש האימון הספציפי. שלישית: יש מטרה מתועדת תקפה.
דרישות שפה פורטוגזית
פורטוגזית ברזילאית שונה מפורטוגזית אירופית. המילים, האיות וצורות המסמכים אינם זהים. מודלי NLP שאומנו על טקסט פורטוגז מגיעים לכ-71% מהדיוק של מודלים שאומנו על טקסט מקומי. זה נובע מהערכה הטכנית של ANPD.
הבדלים מרכזיים לזיהוי PII:
- שמות: שימוש בשם כפול וסדר שמות שונים מפורטוגל.
- כתובות: קודי CEP משתמשים בפורמט XXXXX-XXX. פורמט זה ייחודי למדינה. הוא דורש לוגיקת זיהוי משלו.
- מונחי מסמכים: "Carteira de Identidade" כאן לעומת "Bilhete de Identidade" בפורטוגל. שמות סוכנויות גם שונים.
מה עמידת ANPD דורשת
ארבע צרכים טכניים מכסים עמידת ANPD. זיהוי CPF ו-CNPJ חייב לכלול אימות ספרת ביקורת דו-שלבי. זיהוי RG חייב לכסות את כל המדינות. נדרשים גם זיהוי מספר SUS ו-Título de Eleitor. מודלי NLP חייבים להיות מאומנים על פורטוגזית מקומית.
ראו את המדריך שלנו לזיהוי מזהי PII גלובלי ופעולות אכיפת LGPD ב-2024.