מדוע Excel הוא סוג הקובץ בעל הסיכון הגבוה ביותר שלך
קבצי Excel הם אחד מסיכוני GDPR הגדולים ביותר ברוב העסקים. רשומות רפואיות עשויות לשאת נתונים רגישים יותר בכל שורה. אבל גיליונות אלקטרוניים צוברים PII במהירות — וצוותי ציות לעיתים קרובות מחמיצים אותם.
שלושה דברים מקשים על ניהול קבצי Excel.
נפח: קובץ XLSX אחד יכול להכיל 50,000 שורות ו-100 עמודות. זה חמישה מיליון תאים. אף סקירה ידנית לא יכולה לבדוק את כולם.
פריסת גריד: טקסט זורם בכיוון אחד. Excel מפזר נתונים על פני שורות ועמודות. נתונים אישיים יכולים להסתתר בכל מקום בגריד.
תוכן מעורב: רצועות שכר, קודי מחלקה ודרגות עבודה יושבים באותו קובץ כמו SSNs וכתובות אימייל. מחיקת הכל הופכת את הקובץ לחסר תועלת.
שמירה ממושכת: רשימות צוות ורשומות לקוחות נשארות ב-Excel שנים. סעיף 5(1)(e) ל-GDPR אומר שנתונים חייבים להישמר "לא יותר מהנדרש." קבצים ש"עשויים להיות שימושיים" לרוב נשמרים הרבה מעבר לנקודה זו.
מדוע סריקות טקסט סטנדרטיות נכשלות בגיליונות אלקטרוניים
כלי ניתוח טקסט נבנו למסמכים. הם נשברים בגיליונות אלקטרוניים בכמה דרכים נפוצות.
בעיית ה-SSN-כ-מספר
Excel שומר מספרי ביטוח לאומי ללא מקפים (123456789) כמספרים רגילים — לא טקסט. סורק שנבנה למצוא ###-##-#### יחמיץ אותם. כלי טוב חייב לדעת ש-9 ספרות בעמודה שנקראת "SSN" הוא מספר ביטוח לאומי.
בעיית התאריך-כ-מספר
Excel מאחסן תאריכים כמספרים סידוריים. 6 בפברואר 2024 מאוחסן כ-45329. ייצוא CSV יציג "45329" בעמודת "תאריך לידה". סורק חייב להמיר את המספר הזה לתאריך אמיתי לפני שהוא יכול לסמן את הערך.
בעיית ה-SSN החלקי
חלק מהמערכות מציגות רק ארבע הספרות האחרונות של SSN (*--1234). המספר המלא יושב בעמודה נעולה. הערך החלקי עדיין חייב להיות מאונונים — גם אם הוא לא נראה כ-SSN מלא.
בעיית ה-PII בנוסחה
חלק מהתאים בונים PII מתאים אחרים. תא עם =CONCATENATE(B2," ",C2) מציג שם מלא. אם תנקה עמודות B ו-C, אותו שם מלא עדיין גלוי בתא הנוסחה. כלי שקורא רק ערכים מאוחסנים — לא קישורי נוסחה — ישאיר PII במקום.
בעיית הגיליון המרובה
חוברת עבודה גדולה עשויה להיות עם חמישה גיליונות: רשימת לקוחות, הזמנות, כרטיסי תמיכה, חיוב ואנליטיקה. שמות לקוחות מופיעים בכל חמשת הגיליונות. "ג'ון סמית'" בגיליון אחד חייב להפוך לאותו אסימון — "PERSON_0047" — בכל גיליון אחר. שני אסימונים שונים שוברים קישורי רשומות.
כותרות עמודות כאות
השיפור הטוב ביותר בזיהוי PII בגיליונות אלקטרוניים הוא ניתוח כותרות עמודות.
עמודה שנקראת "SSN" אומרת לכלי שכל הערכים בעמודה זו הם מספרי ביטוח לאומי. זה עובד גם אם ערכים הם חלקיים, בעלי פורמט מוזר, או מאוחסנים כמספרים.
| כותרת עמודה | מה היא מאותתת |
|---|---|
| SSN / מספר ביטוח לאומי / מספר מס | טפל ב-9 ספרות כ-SSNs |
| Email / דוא"ל / כתובת אימייל | סמן גם דפוסי אימייל חלקיים |
| טלפון / פקסימיליה / נייד / סלולרי | קבל כל פורמט טלפון |
| DOB / תאריך לידה / יום הולדת | המר מספרים סידוריים לתאריכים |
| שם פרטי / שם משפחה / שם מלא | הורד את רף זיהוי השם |
| כתובת / רחוב / עיר / מיקוד | שלב שדות מיקום קרובים |
| מזהה מטופל / MRN / מספר רשומה | החל דפוסי מזהה בריאות |
הקשר העמודה אינו מחליף סריקת תוכן. הוא מוסיף לה. עמודה שנקראת "SSN" עם 100 ערכים: סריקת תוכן תופסת 99 שמעוצבים היטב. הקשר עמודה תופס את זה שנראה מוזר.
שמור על המבנה, הסר את השמות
המטרה ברוב מקרי GDPR ב-Excel אינה להשמיד את הקובץ. היא לפשוט נתונים אישיים תוך שמירת החלקים שהופכים את הקובץ לשימושי.
עבור קובץ רשומות צוות עם 15,000 שורות, קצין ציות זקוק ל:
הסר:
- שמות עובדים → אסימוני PERSON_XXXX
- SSNs → REDACTED
- כתובות אימייל → REDACTED
- מספרי טלפון → REDACTED
- כתובות בית → REDACTED
שמור:
- קודי מחלקה
- תפקידי עבודה (תפקידים כלליים בלבד)
- רצועות שכר (קטגוריות רחבות)
- ציוני ביצועים (נתונים קבוצתיים)
- תאריכי התחלה (לנתוני ותק)
- קודי מנהל (אם פסאודונימיזציה)
כלי שיודע את ההבדל בין "נתונים שמזהים אנשים" לבין "נתונים שמתארים עבודות" נותן לך קובץ שעדיין עובד לניתוח HR — ועומד בכללי מזעור הנתונים של GDPR.
מקרה אמיתי: העברת נתוני HR במיזוג ורכישה
חברה רוכשת מקבלת רשומות צוות מהחברה הנרכשת: XLSX עם 15,000 שורות ו-40 עמודות. הקובץ חייב לעבור לחברת HR חיצונית לצורך תכנון הטבות. GDPR אומר שרק הנתונים הנדרשים למשימה זו יכולים להיות משותפים.
לפני העיבוד: 40 עמודות עם שמות מלאים, SSNs, אימיילים, כתובות בית, אנשי קשר לשעת חירום ופרטי בנק.
לאחר עיבוד הקשר-עמודה:
- 12 עמודות שמזהות ישירות אנשים (שמות, SSNs, אימיילים, טלפון, כתובות, נתוני בנק): הוחלפו באסימונים עקביים
- 3 עמודות שמזהות אנשים בעקיפין (מזהה צוות, קוד מנהל, קוד עבודה): הוחלפו באסימונים פסאודונימיים שמתאימים בתוך הקובץ
- 25 עמודות של נתונים מצטברים (רצועת שכר, מחלקה, ותק, דרגה): נשארו ללא שינוי
זמן: 8 דקות ל-600,000 תאים
פלט: אותה פריסת XLSX, 40 עמודות, 15 מאונונימות, 25 ללא שינוי
יומן ביקורת: רשומה ברמת תא של כל פעולה עם סוג ישות, ציון ביטחון ואות עמודה שנעשה בה שימוש
חברת HR מקבלת מערך נתונים מלא לעבודתה — ללא שמות או מזהים. רשומת הציות מקבלת הוכחה שרק הנתונים הנכונים שותפו.
אתגר זה אינו ייחודי ל-Excel. כל פורמט קובץ נכשל בדרכו שלו. ראה כיצד פיצול פורמטים משפיע על זיהוי PII להסתכלות על פני סוגי קבצים.
שלושה כללי GDPR סעיף 5, תהליך אחד
אנונימיזציה מובנית של גיליונות אלקטרוניים עומדת בשלושה כללים בו-זמנית.
מזעור נתונים (סעיף 5(1)(c)): רק העמודות הנדרשות למשימה עוברות לנמען. עמודות מזהות נמחקות.
הגבלת אחסון (סעיף 5(1)(e)): הקובץ המקורי נשמר לצורכי שמירה משפטית. עותק נקי נוצר לשיתוף — עם צורך שמירה קצר יותר או ללא צורך שמירה.
שלמות וסודיות (סעיף 5(1)(f)): אין נתונים מזהים יוצאים מאזור הבקרה. רק עותקים נקיים משותפים.
yומן הביקורת מהתהליך הוא גם הוכחת סעיף 5(2) שלך. הוא מראה כיצד כל כלל נשמר עבור כל קובץ.
אם הצוות שלך מטפל ב-DSARs או ייצוא נתונים גדול, אותה לוגיקה חלה ברמת ה-API. ראה כיצד מזעור נתונים GDPR עובד ב-APIs בזמן אמת.
לצוותים המטפלים בנפחים גבוהים תחת לוחות זמנים קפדניים, ראה עיבוד אצווה GDPR DSAR בקנה מידה לדפוסי זרימת עבודה החלים כאן גם כן.