anonym.legal
Назад на блоготGDPR & Усогласеност

Excel и GDPR: Како да анонимизирате Excel табели со...

Excel е меѓу најПИИ-густи видови на документи во деловни операции. Еве зошто стандардна текстна анализа неуспешна на Excel табели и какво...

April 21, 20268 мин читање
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Зошто Excel е ваш највисок-ризик видување на документ

Од сите видови на документи кои собираат ПИИ во деловни средина, Excel табели се меѓу најопаснак од GDPR согласност перспектива.

Не затоа што се најсензитивни — медицински записи и правни документи се јасно висок-ризик за индивидуалната podataka субјекти. Но затоа што Excel има карактеристики кои ги направаат системски подтретирани од стандардни процеси:

Волумен и развој: Еден XLSX фајл може содржи 50,000 редови и 100 колони. Секоја ќелија е потенцијална ПИИ локација. Без ручна преглед процес скали до овој волумен поверливо.

Структурна разнозност: За разлика од текстни документи (секвенцијални) или PDFs (страна-базирани), Excel има две-димензионална структура со контекст дистрибуирана хоризонтално (колона загла) и вертикално (ред односи). ПИИ може да се појави насекаде.

Деловно-критичен не-ПИИ podataka мешано со ПИИ: Плата фигури, перформанси резултати, одделение кодови, и други легитимни пословни podataka постои во истиот Excel табела како SSNs и emaјл адреси. Недисцирминативна анонимизирање кој ќе замаглури не-ПИИ podataka ја направа табелата неупотребував.

Долго задржување без преглед: Потрошувач бази, вработени регистри, и продавач листи собираат во Excel фајлови и често задржан за години без GDPR преглед. GDPR-овото задржување ограничување принцип (Членот 5(1)(e)) захтева podataka да биде задржан "не подолго од неопходно" — но Excel табели кои "можат да биде корисни" се склоне да трајат неопределено долго.

Технички предизвици од Excel табела ПИИ детектирање

Стандардни текстни анализа приоди неуспешна на Excel табели во предвидувачки начи:

SSN-као-Број Проблем

US Social Security Numbers задржан во Excel ќелии без цртници (123456789) се задржуваат како броеви од Excel, не како текст. Текстна анализа која скенира за образец "###-##-####" ќе пропускаат овие. Формат-свесен детектирање мора препознае дека 9-цифрен број во колона означена "SSN" е Social Security Number дури и без цртници.

Датум-као-Број Проблем

Excel задржува датуми као сериски броеви interno (Јануари 1, 1900 = 1; Фебруари 6, 2024 = 45329). Ќелија приказување "02/06/2024" е задржана како "45329". Анализа на извезене CSV од Excel може да види "45329" во "Датум на раѓање" колона — број, не датум. Контекст-свесен детектирање мора справи со оваа конверзија.

Делумни SSN Проблем

Некои согласност работни текови задржуваат SSNs со само последни четири цифри видливо за оперативна употреба (*--1234). Целиот SSN е задржан во одделена заклучена колона за надлежни корисници. Анонимизирање од делумната вредност е требана дури и иако не совпаѓа целосна SSN образци.

Пресметана ПИИ Проблем

Некои ќелии содржат формули кои производат ПИИ вредности од други ќелии. Ќелија со =CONCATENATE(B2," ",C2) може производ целосна име од прво и презиме колони. Анонимизирање од прво и презиме колони (B и C) е исправна; конкатенација ќелија мора исто така да биде ажурирана. Алатки кои анализираат ќелија вредности без размислување формули референци може производ Excel табели каде ПИИ се појавува во формули излезови дури и следејќи извор ќелии се анонимизираат.

Мултипл-Лист Конзистентност Проблем

Големина Excel работна книга може имаат 5 листови: "Потрошувач Листа", "Нарачки", "Поддршка Билетирање", "Фактурирање", "Аналитика". Потрошувач имиња се појавува во сите пет листови. Конзистентна анонимизирање бара дека исти потрошувач добива исти анонимизирање жетон преку сите листови — така да "John Smith" во Потрошувач Листа и "John Smith" во Поддршка Билетирање обе станат "PERSON_0047" конзистентно, не два различни жетони кои паѓаат запис врска.

Колона контекст како детектирање сигнал

Најзначајниот подобрување во Excel табела-специфичен ПИИ детектирање е колона загла контекст анализа.

Принцип: колона означена "SSN" или "Social Security Number" сигнализира до детектирање движок дека сите вредности во таа колона треба да бидат третирани како социјални безбедност броеви, дури и ако индивидуални вредности се делумни, форматирани различито, или задржани како броеви.

Колона контекст сигнали кои подобрување детектирање точност:

Колона загладетектирање сигнал
SSN / Social Security / Tax IDSSN контекст — 9-цифрен броеви третирани како SSNs
Email / E-mail / Email AddressEmail контекст — валидира дури и делумни образци
Phone / Telephone / Mobile / CellPhone контекст — прифаќа различни форматирање
DOB / Date of Birth / Birthdayдатум контекст — конвертира сериски броеви до датуми
First Name / Last Name / Full Nameиме контекст — намалува праг за NER детектирање
Address / Street / City / ZIPадреса контекст — комбинира географски полиња
Patient ID / MRN / Record Numberздравство ID контекст — фацилитет-специфични образци

Колона контекст анализа не го замени содржина анализа — од го зајакнува. Колона означена "SSN" со 100 вредности ќе детекти 99 добро-форматирани SSNs преку содржина анализа; колона контекст помага детекти 1 малформатирана или делумна вредност.

Задржување барање: Анонимизирање ПИИ, Чува структура

Согласност цел за повеќето Excel GDPR сценарија не е уништување во Excel табела — од је уклањање личен идентификатори додека чувајќи структура на податоци кои ја направаат табелата полезна.

За 15,000-ред вработена записи Excel табела, GDPR согласност официјален потреба:

Анонимизирање:

  • Вработена имиња → PERSON_XXXX жетони
  • SSNs → REDACTED
  • Email адреси → REDACTED
  • Телефон броеви → REDACTED
  • Дома адреси → REDACTED

Чува:

  • Одделение кодови (не лични идентификатори)
  • Позиција наслови (опште улоги, не индивидуално идентификување)
  • Плата диапазони (агрегат категории, не специфични суми во некои имплементации)
  • Перформанси резултати (статистички podataka)
  • Старт датуми (за вработување анализа без идентификување индивидури)
  • Менаџер кодови (ако менаџери се псевдо-анонимизирани конзистентно)

Алатка кои чува разлика меѓу "ништа кое идентификува индивидури" и "ништа кое опише вработување образци" производ Excel табела кој остава полезна за ХР аналитика цел додека задоволување податока минимизирање и псевдо-анонимизирање барања.

Употреби главна: M&A ХР Податока Пренос

Одбива компании добива вработена записи од придобитата компани: 15,000-ред XLSX со 40 колони. Podataka мора biti делен со надворешен ХР советник за корист интеграција планирање. GDPR бара дека только podataka неопходна за корист планирање делен — плата диапазони, одделение кодови, вработување, позиција разреди — не идентификување информација.

Пред анонимизирање: 40 колони × 15,000 редови, вклучително и целосна имиња, SSNs, email адреси, дома адреси, од случа контакти, и банка сметка информација за плата.

Обработка со колона-контекст детектирање:

  • 12 колони идентификува како директно идентификување (имиња, SSNs, emails, телефон, адреса, банка сметка): ќелија-по-ќелија замена со конзистентни жетони
  • 3 колони идентификува као индиректно идентификување (вработена ID, менаџер код, уникален позиција код): замена со псевдо-анонимни жетони (конзистентни во фајл, не крест-референцијален до надворешни записи)
  • 25 колони идентификува као не-идентификување статистички podataka (плата диапазон, одделение, вработување, разред): чува неизменен

Обработка време: 8 минути за 600,000 ќелии Излез: XLSX во оригинално формат, 40 колони целосна, 15 колони анонимизирана/псевдо-анонимизирана, 25 колони неизменен Ревизија извештај: Ќелија-ниво дневник од сите 200,000+ анонимизирање акции со ентитет видување, верување, и колона контекст сигнал користена

За ХР советник: целосна podataka сет за корист планирање со без идентификување информација. Зa GDPR согласност запис: ревизија извештај демонстрирање цел ограничување — только podataka неопходна за специфична задача беше делена.

GDPR Членот 5 Барања Задоволена од структуран анонимизирање

Excel табела-специфичен анонимизирање задоволува три Членот 5 принципи истовремено:

Податока минимизирање (Членот 5(1)(c)): Только колони неопходни за специфична цел се делени; идентификување колони се анонимизирана од.

Задржување ограничување (Членот 5(1)(e)): Оригинално фајлови се задржувани (со идентификување podataka) за статутар задржување периоди; анонимизирана верзии се создаваат за делење контекст со пократка или без задржување барања.

Целост и конфиденцијалност (Членот 5(1)(f)): Идентификување podataka отстранена од сите делење примери; только анонимизирана верзии остави контрола средина.

Ревизија стезалиште од анонимизирање процес обезбедува Членот 5(2) одговорност документирање — демонстрирање согласност со секој принцип за секој Excel обработена.

Извори:

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.