Защо електронните таблици не са документи
Word документ е последователен текстов поток с метаданни за форматиране. Електронната таблица Excel е релационна структура от данни: клетките препращат към други клетки, формулите работят върху диапазони от клетки, обобщените таблици агрегират именувани диапазони от данни, а макросите преминават през обектния модел на електронната таблица. Третирането на Excel файл като текстов документ, който трябва да бъде обработен за PII шаблони - което е начинът, по който повечето инструменти за редактиране на документи подхождат към електронните таблици - пропуска връзките на данните, които определят действителното съдържание на електронната таблица.
Помислете за електронна таблица за анализ на клиента. Колона A съдържа имена на клиенти. Колона D съдържа формула: =VLOOKUP(A2, CustomerTable, 5, FALSE) — справка, която връща салдото по сметката на клиента въз основа на неговото име. Ако инструментът за анонимизиране замени името в колона A, но не актуализира препратката към формулата или таблицата за справка, формулата продължава да връща действителния баланс на акаунта за оригиналното име. „Анонимизираният“ документ все още разкрива оригиналната самоличност на клиента чрез връзката с данните.
Това не е хипотетичен краен случай. Enterprise Excel файловете са изградени около връзки с данни. Анонимното заместване на стойности на отделни клетки без разбиране на релационната структура създава документи, които изглеждат анонимизирани, но запазват оригиналните данни чрез препратки към формули, кешове на осеви таблици и справки в различни листове.
GDPR Изискване за споделяне от трети страни
GDPR Член 28 урежда споделянето на данни с обработващите: организациите, споделящи лични данни с външни страни (консултанти, доставчици на анализи, одитори), трябва да осигурят подходящи технически гаранции. Практическият въпрос: каква е подходящата защита при споделяне на Excel набор от данни, съдържащ 50 000 клиентски записа, с външен доставчик на анализи?
PDF експортирането премахва формули и създава моментна снимка — но PDF експортирането на големи Excel файлове често поврежда сложното форматиране и не е подходящо за аналитична употреба. Преобразуването в CSV премахва формули, обобщени таблици и по-голямата част от аналитичната структура. Нито една опция не дава на външния доставчик използваем набор от данни за техните аналитични цели.
Анонимизирането на ниво клетка в рамките на родния формат Excel — заместване на идентифициращи стойности при запазване на аналитичната структура — е единственият подход, който удовлетворява както изискването за защита на GDPR, така и изискването за бизнес полезност едновременно.
Air-Gapped обработка за отбранителни електронни таблици
67% от заявките за обществени поръчки за правителствени и отбранителни поръчки се позовават на изисквания за околна среда с безвъздушно пространство (DISA 2024). Изпълнителите на отбраната, работещи с данни за персонала, логистична информация или записи за обществени поръчки във формат Excel, не могат да използват базирани на облак инструменти за анонимизиране поради същите причини, които забраняват базираната на облак обработка на документи: данните не могат да напускат контролираната мрежа.
Комбинацията от специфична за Excel способност за анонимизиране и само локална обработка създава техническия профил, необходим за спазване на държавните договори. Приложението за настолен компютър обработва Excel файлове локално без мрежови повиквания по време на обработката; резултатите от анонимизирането никога не напускат околната среда; обработените файлове са достъпни за вътрешно споделяне в рамките на контролираната мрежа.
Интелигентност на клетъчно ниво
Ефективната Excel анонимизация работи на три нива едновременно:
**Ниво на стойност: ** Откриване и заместване на PII стойности в отделни клетки. Имената на клиентите, имейл адресите, телефонните номера и националните идентификационни номера се идентифицират чрез същия хибриден механизъм за откриване, използван за обработка на документи.
Ниво на формула: Идентифициране на клетки, чиито формули препращат към клетки, съдържащи PII, и актуализиране на тези препратки, за да сочат към анонимизираните стойности или замяна на формулата с нейния изчислен резултат, за да се предотврати излагането на PII, базирана на формула.
Ниво на структурата: Изчистване на кеша с данни на обобщена таблица, обработка на скрити редове и колони и обработка на VBA макро код, който препраща към конкретни адреси на клетки или стойности.
Източници:
- DISA 2024: Изисквания за околна среда с въздушна междина при обществени поръчки – [Redactable.com: Excel GDPR най-добри практики за съответствие и редактиране на електронни таблици] (https://www.redactable.com/blog/excel-redaction)
- [Tungsten Automation: Най-добри практики за редактиране на PII във всички файлови формати] (https://www.tungstenautomation.com/learn/blog/pii-redaction-best-practices-how-to-protect-customer-data-across-all-formats)