By · Last updated 2026-06-05

חזרה לבלוגGDPR ועמידה

PII ב-Excel: אנונימיזציה של מאות עמודות

קבצי Excel הם מבין סוגי המסמכים הצפופים ביותר ב-PII בפעולות עסקיות. הנה מדוע ניתוח טקסט סטנדרטי נכשל על גיליונות אלקטרוניים ומה ניתוח הקשר-עמודות יכול לעשות.

June 5, 20268 דקות קריאה
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

מדוע Excel הוא סוג הקובץ בעל הסיכון הגבוה ביותר שלך

קבצי Excel הם אחד מסיכוני GDPR הגדולים ביותר ברוב העסקים. רשומות רפואיות עשויות לשאת נתונים רגישים יותר בכל שורה. אבל גיליונות אלקטרוניים צוברים PII במהירות — וצוותי ציות לעיתים קרובות מחמיצים אותם.

שלושה דברים מקשים על ניהול קבצי Excel.

נפח: קובץ XLSX אחד יכול להכיל 50,000 שורות ו-100 עמודות. זה חמישה מיליון תאים. אף סקירה ידנית לא יכולה לבדוק את כולם.

פריסת גריד: טקסט זורם בכיוון אחד. Excel מפזר נתונים על פני שורות ועמודות. נתונים אישיים יכולים להסתתר בכל מקום בגריד.

תוכן מעורב: רצועות שכר, קודי מחלקה ודרגות עבודה יושבים באותו קובץ כמו SSNs וכתובות אימייל. מחיקת הכל הופכת את הקובץ לחסר תועלת.

שמירה ממושכת: רשימות צוות ורשומות לקוחות נשארות ב-Excel שנים. סעיף 5(1)(e) ל-GDPR אומר שנתונים חייבים להישמר "לא יותר מהנדרש." קבצים ש"עשויים להיות שימושיים" לרוב נשמרים הרבה מעבר לנקודה זו.

מדוע סריקות טקסט סטנדרטיות נכשלות בגיליונות אלקטרוניים

כלי ניתוח טקסט נבנו למסמכים. הם נשברים בגיליונות אלקטרוניים בכמה דרכים נפוצות.

בעיית ה-SSN-כ-מספר

Excel שומר מספרי ביטוח לאומי ללא מקפים (123456789) כמספרים רגילים — לא טקסט. סורק שנבנה למצוא ###-##-#### יחמיץ אותם. כלי טוב חייב לדעת ש-9 ספרות בעמודה שנקראת "SSN" הוא מספר ביטוח לאומי.

בעיית התאריך-כ-מספר

Excel מאחסן תאריכים כמספרים סידוריים. 6 בפברואר 2024 מאוחסן כ-45329. ייצוא CSV יציג "45329" בעמודת "תאריך לידה". סורק חייב להמיר את המספר הזה לתאריך אמיתי לפני שהוא יכול לסמן את הערך.

בעיית ה-SSN החלקי

חלק מהמערכות מציגות רק ארבע הספרות האחרונות של SSN (*--1234). המספר המלא יושב בעמודה נעולה. הערך החלקי עדיין חייב להיות מאונונים — גם אם הוא לא נראה כ-SSN מלא.

בעיית ה-PII בנוסחה

חלק מהתאים בונים PII מתאים אחרים. תא עם =CONCATENATE(B2," ",C2) מציג שם מלא. אם תנקה עמודות B ו-C, אותו שם מלא עדיין גלוי בתא הנוסחה. כלי שקורא רק ערכים מאוחסנים — לא קישורי נוסחה — ישאיר PII במקום.

בעיית הגיליון המרובה

חוברת עבודה גדולה עשויה להיות עם חמישה גיליונות: רשימת לקוחות, הזמנות, כרטיסי תמיכה, חיוב ואנליטיקה. שמות לקוחות מופיעים בכל חמשת הגיליונות. "ג'ון סמית'" בגיליון אחד חייב להפוך לאותו אסימון — "PERSON_0047" — בכל גיליון אחר. שני אסימונים שונים שוברים קישורי רשומות.

כותרות עמודות כאות

השיפור הטוב ביותר בזיהוי PII בגיליונות אלקטרוניים הוא ניתוח כותרות עמודות.

עמודה שנקראת "SSN" אומרת לכלי שכל הערכים בעמודה זו הם מספרי ביטוח לאומי. זה עובד גם אם ערכים הם חלקיים, בעלי פורמט מוזר, או מאוחסנים כמספרים.

כותרת עמודהמה היא מאותתת
SSN / מספר ביטוח לאומי / מספר מסטפל ב-9 ספרות כ-SSNs
Email / דוא"ל / כתובת אימיילסמן גם דפוסי אימייל חלקיים
טלפון / פקסימיליה / נייד / סלולריקבל כל פורמט טלפון
DOB / תאריך לידה / יום הולדתהמר מספרים סידוריים לתאריכים
שם פרטי / שם משפחה / שם מלאהורד את רף זיהוי השם
כתובת / רחוב / עיר / מיקודשלב שדות מיקום קרובים
מזהה מטופל / MRN / מספר רשומההחל דפוסי מזהה בריאות

הקשר העמודה אינו מחליף סריקת תוכן. הוא מוסיף לה. עמודה שנקראת "SSN" עם 100 ערכים: סריקת תוכן תופסת 99 שמעוצבים היטב. הקשר עמודה תופס את זה שנראה מוזר.

שמור על המבנה, הסר את השמות

המטרה ברוב מקרי GDPR ב-Excel אינה להשמיד את הקובץ. היא לפשוט נתונים אישיים תוך שמירת החלקים שהופכים את הקובץ לשימושי.

עבור קובץ רשומות צוות עם 15,000 שורות, קצין ציות זקוק ל:

הסר:

  • שמות עובדים → אסימוני PERSON_XXXX
  • SSNs → REDACTED
  • כתובות אימייל → REDACTED
  • מספרי טלפון → REDACTED
  • כתובות בית → REDACTED

שמור:

  • קודי מחלקה
  • תפקידי עבודה (תפקידים כלליים בלבד)
  • רצועות שכר (קטגוריות רחבות)
  • ציוני ביצועים (נתונים קבוצתיים)
  • תאריכי התחלה (לנתוני ותק)
  • קודי מנהל (אם פסאודונימיזציה)

כלי שיודע את ההבדל בין "נתונים שמזהים אנשים" לבין "נתונים שמתארים עבודות" נותן לך קובץ שעדיין עובד לניתוח HR — ועומד בכללי מזעור הנתונים של GDPR.

מקרה אמיתי: העברת נתוני HR במיזוג ורכישה

חברה רוכשת מקבלת רשומות צוות מהחברה הנרכשת: XLSX עם 15,000 שורות ו-40 עמודות. הקובץ חייב לעבור לחברת HR חיצונית לצורך תכנון הטבות. GDPR אומר שרק הנתונים הנדרשים למשימה זו יכולים להיות משותפים.

לפני העיבוד: 40 עמודות עם שמות מלאים, SSNs, אימיילים, כתובות בית, אנשי קשר לשעת חירום ופרטי בנק.

לאחר עיבוד הקשר-עמודה:

  • 12 עמודות שמזהות ישירות אנשים (שמות, SSNs, אימיילים, טלפון, כתובות, נתוני בנק): הוחלפו באסימונים עקביים
  • 3 עמודות שמזהות אנשים בעקיפין (מזהה צוות, קוד מנהל, קוד עבודה): הוחלפו באסימונים פסאודונימיים שמתאימים בתוך הקובץ
  • 25 עמודות של נתונים מצטברים (רצועת שכר, מחלקה, ותק, דרגה): נשארו ללא שינוי

זמן: 8 דקות ל-600,000 תאים

פלט: אותה פריסת XLSX, 40 עמודות, 15 מאונונימות, 25 ללא שינוי

יומן ביקורת: רשומה ברמת תא של כל פעולה עם סוג ישות, ציון ביטחון ואות עמודה שנעשה בה שימוש

חברת HR מקבלת מערך נתונים מלא לעבודתה — ללא שמות או מזהים. רשומת הציות מקבלת הוכחה שרק הנתונים הנכונים שותפו.

אתגר זה אינו ייחודי ל-Excel. כל פורמט קובץ נכשל בדרכו שלו. ראה כיצד פיצול פורמטים משפיע על זיהוי PII להסתכלות על פני סוגי קבצים.

שלושה כללי GDPR סעיף 5, תהליך אחד

אנונימיזציה מובנית של גיליונות אלקטרוניים עומדת בשלושה כללים בו-זמנית.

מזעור נתונים (סעיף 5(1)(c)): רק העמודות הנדרשות למשימה עוברות לנמען. עמודות מזהות נמחקות.

הגבלת אחסון (סעיף 5(1)(e)): הקובץ המקורי נשמר לצורכי שמירה משפטית. עותק נקי נוצר לשיתוף — עם צורך שמירה קצר יותר או ללא צורך שמירה.

שלמות וסודיות (סעיף 5(1)(f)): אין נתונים מזהים יוצאים מאזור הבקרה. רק עותקים נקיים משותפים.

yומן הביקורת מהתהליך הוא גם הוכחת סעיף 5(2) שלך. הוא מראה כיצד כל כלל נשמר עבור כל קובץ.

אם הצוות שלך מטפל ב-DSARs או ייצוא נתונים גדול, אותה לוגיקה חלה ברמת ה-API. ראה כיצד מזעור נתונים GDPR עובד ב-APIs בזמן אמת.

לצוותים המטפלים בנפחים גבוהים תחת לוחות זמנים קפדניים, ראה עיבוד אצווה GDPR DSAR בקנה מידה לדפוסי זרימת עבודה החלים כאן גם כן.

מקורות

מוכן להגן על הנתונים שלך?

התחל לאנונימיזציה של PII עם 285+ סוגי ישויות ב-48 שפות.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.