Bloga DönGDPR & Uyumluluk

Excel ve GDPR: Yüzlerce PII Sütununu Veri Yapısını Kaybetmeden Nasıl Anonimleştirirsiniz

Excel, iş operasyonlarında en yoğun PII içeren belge türlerinden biridir. İşte standart metin analizinin elektronik tablolar üzerinde neden başarısız olduğu ve sütun bağlamı tespitinin neleri değiştirdiği.

March 7, 20268 dk okuma
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Excel Neden En Yüksek Riskli Belge Türünüzdür

İş ortamlarında PII toplayan tüm belge türleri arasında, elektronik tablolar GDPR uyumluluğu açısından en tehlikeli olanlardandır.

Bu, en hassas oldukları için değil — tıbbi kayıtlar ve hukuki belgeler, bireysel veri sahipleri için açıkça daha yüksek risk taşır. Ama çünkü Excel elektronik tablolarının, uyumluluk süreçleri tarafından sistematik olarak yeterince ele alınmayan özellikleri vardır:

Hacim ve yayılma: Tek bir XLSX dosyası 50.000 satır ve 100 sütun içerebilir. Her hücre potansiyel bir PII konumudur. Hiçbir manuel inceleme süreci bu hacme güvenilir bir şekilde ölçeklenemez.

Yapısal çeşitlilik: Metin belgeleri (sıralı) veya PDF'ler (sayfa tabanlı) ile karşılaştırıldığında, Excel iki boyutlu bir yapıya sahiptir; bağlam yatayda (sütun başlıkları) ve dikeyde (satır ilişkileri) dağıtılmıştır. PII her yerde görünebilir.

İş açısından kritik PII ile karışık olmayan veriler: Maaş rakamları, performans puanları, departman kodları ve diğer meşru iş verileri, SSN'ler ve e-posta adresleri ile aynı elektronik tabloda bulunmaktadır. Karışık anonimleştirme, PII olmayan verileri bulanıklaştırdığında elektronik tablo işe yaramaz hale gelir.

Uzun süreli saklama, inceleme olmadan: Müşteri veritabanları, çalışan kayıtları ve tedarikçi listeleri Excel dosyalarında birikir ve genellikle yıllarca GDPR incelemesi olmadan saklanır. GDPR'nın saklama sınırlaması ilkesi (Madde 5(1)(e)), verilerin "gerekli olandan daha uzun süre" saklanmamasını gerektirir — ancak "yararlı olabilecek" elektronik tablolar genellikle sonsuza kadar devam eder.

Elektronik Tablo PII Tespiti Teknik Zorlukları

Standart metin analizi yaklaşımları, elektronik tablolarda öngörülebilir şekillerde başarısız olur:

SSN'nin Sayı Olarak Saklanması Sorunu

Excel hücrelerinde tire olmadan saklanan ABD Sosyal Güvenlik Numaraları (123456789), Excel tarafından metin olarak değil, sayı olarak saklanır. "###-##-####" desenini tarayan metin analizi bunları atlayacaktır. Format farkındalığına sahip tespit, "SSN" olarak etiketlenmiş bir sütunda bulunan 9 basamaklı bir sayının, tire olmadan bile bir Sosyal Güvenlik Numarası olduğunu tanımalıdır.

Tarihlerin Sayı Olarak Saklanması Sorunu

Excel, tarihleri dahili olarak seri numaraları olarak saklar (1 Ocak 1900 = 1; 6 Şubat 2024 = 45329). "02/06/2024" olarak görüntülenen bir hücre "45329" olarak saklanır. Excel'den dışa aktarılan CSV analizi, "Doğum Tarihi" sütununda "45329" görebilir — bir sayı, tarih değil. Bağlam farkındalığına sahip tespit, bu dönüşümü ele almalıdır.

Kısmi SSN Sorunu

Bazı uyumluluk iş akışları, operasyonel kullanım için yalnızca son dört basamağı görünür şekilde saklar (*--1234). Tam SSN, yetkili kullanıcılar için ayrı bir kilitli sütunda saklanır. Kısmi değerin anonimleştirilmesi gereklidir, çünkü tam SSN desenleriyle eşleşmez.

Hesaplanan PII Sorunu

Bazı hücreler, diğer hücrelerden PII değerleri üreten formüller içerir. =CONCATENATE(B2," ",C2) içeren bir hücre, ad ve soyad sütunlarından tam bir isim üretebilir. Ad ve soyad sütunlarını (B ve C) anonimleştirmek doğrudur; birleştirme hücresi de güncellenmelidir. Formül referanslarını dikkate almadan hücre değerlerini analiz eden araçlar, kaynak hücreler anonimleştirildikten sonra bile formül çıktılarında PII'nin göründüğü elektronik tablolar üretebilir.

Çoklu Sayfa Tutarlılığı Sorunu

Büyük bir Excel çalışma kitabı 5 sayfa içerebilir: "Müşteri Listesi", "Siparişler", "Destek Talepleri", "Faturalama", "Analizler". Müşteri isimleri beş sayfada da görünmektedir. Tutarlı anonimleştirme, aynı müşterinin tüm sayfalarda aynı anonimleştirme token'ını almasını gerektirir — böylece "John Smith" Müşteri Listesi'nde ve "John Smith" Destek Talepleri'nde her ikisi de tutarlı bir şekilde "PERSON_0047" olur, iki farklı token değil.

Sütun Bağlamı Bir Tespit Sinyali Olarak

Elektronik tabloya özgü PII tespitindeki en önemli iyileştirme, sütun başlığı bağlamı analizidir.

Prensip: "SSN" veya "Sosyal Güvenlik Numarası" olarak etiketlenmiş bir sütun, tespit motoruna o sütundaki tüm değerlerin sosyal güvenlik numarası olarak ele alınması gerektiğini sinyaller, bireysel değerler kısmi, farklı formatta veya sayı olarak saklansa bile.

Tespiti artıran sütun bağlamı sinyalleri:

Sütun başlığıTespit sinyali
SSN / Sosyal Güvenlik / Vergi KimliğiSSN bağlamı — 9 basamaklı sayılar SSN olarak ele alınır
E-posta / E-mail / E-posta AdresiE-posta bağlamı — kısmi desenleri doğrular
Telefon / Telefon / Mobil / CepTelefon bağlamı — çeşitli formatları kabul eder
DOB / Doğum Tarihi / Doğum GünüTarih bağlamı — seri numaralarını tarihlere dönüştürür
Ad / Soyad / Tam İsimİsim bağlamı — NER tespiti için eşiği düşürür
Adres / Sokak / Şehir / POSTA KODUAdres bağlamı — coğrafi alanları birleştirir
Hasta Kimliği / MRN / Kayıt NumarasıSağlık ID bağlamı — tesis spesifik desenler

Sütun bağlamı analizi, içerik analizinin yerini almaz — onu artırır. 100 değeri olan "SSN" etiketli bir sütun, içerik analizi yoluyla 99 iyi formatlanmış SSN'yi tespit edecektir; sütun bağlamı, 1 kötü formatlanmış veya kısmi değeri tespit etmeye yardımcı olur.

Koruma Gereksinimi: PII'yi Anonimleştir, Yapıyı Koruyun

Çoğu Excel GDPR senaryosu için uyumluluk hedefi, elektronik tabloyu yok etmek değil — kişisel tanımlayıcıları kaldırırken elektronik tablonun kullanılabilir kılan veri yapısını korumaktır.

15.000 satırlık bir çalışan kayıtları elektronik tablosu için, GDPR uyumluluk yetkilisi şunları gerektirir:

Anonimleştir:

  • Çalışan isimleri → PERSON_XXXX token'ları
  • SSN'ler → KAPATILDI
  • E-posta adresleri → KAPATILDI
  • Telefon numaraları → KAPATILDI
  • Ev adresleri → KAPATILDI

Koruyun:

  • Departman kodları (kişisel tanımlayıcılar değil)
  • İş unvanları (genel roller, bireysel olarak tanımlayıcı değil)
  • Maaş bantları (toplu kategoriler, bazı uygulamalarda belirli miktarlar değil)
  • Performans puanları (istatistiksel veriler)
  • Başlangıç tarihleri (bireyleri tanımlamadan kıdem analizi için)
  • Yönetici kodları (eğer yöneticiler tutarlı bir şekilde takma adlandırılmışsa)

"Bireyleri tanımlayan şeyler" ile "istihdam kalıplarını tanımlayan şeyler" arasındaki ayrımı koruyan bir araç, veri minimizasyonu ve takma adlandırma gereksinimlerini karşılayarak, HR analitik amacı için hala kullanılabilir bir elektronik tablo üretir.

Kullanım Durumu: M&A HR Veri Transferi

Bir satın alma şirketi, satın alınan şirketten çalışan kayıtları alır: 15.000 satır ve 40 sütun içeren bir XLSX. Veriler, faydalar entegrasyonu planlaması için dış bir HR danışmanıyla paylaşılmalıdır. GDPR, yalnızca faydalar planlaması için gerekli verilerin paylaşılmasını gerektirir — maaş bantları, departman kodları, kıdem, iş dereceleri — tanımlayıcı bilgilerin değil.

Anonimleştirmeden önce: 40 sütun × 15.000 satır, tam isimler, SSN'ler, e-posta adresleri, ev adresleri, acil durum kişileri ve maaş için banka hesap bilgilerini içermektedir.

Sütun-bağlamı tespiti ile işleme:

  • 12 sütun doğrudan tanımlayıcı olarak tanımlandı (isimler, SSN'ler, e-postalar, telefon, adres, banka hesabı): hücre hücreye tutarlı token'larla değiştirilir
  • 3 sütun dolaylı olarak tanımlayıcı olarak tanımlandı (çalışan ID, yönetici kodu, benzersiz iş kodu): takma ad token'ları ile değiştirilir (dosya içinde tutarlı, dış kayıtlara çapraz referans verilemez)
  • 25 sütun tanımlayıcı olmayan istatistiksel veri olarak tanımlandı (maaş bandı, departman, kıdem, derece): değişmeden korunur

İşleme süresi: 600.000 hücre için 8 dakika Çıktı: Orijinal formatta XLSX, 40 sütun sağlam, 15 sütun anonimleştirilmiş/takma adlandırılmış, 25 sütun değişmeden Denetim raporu: 200.000+ anonimleştirme eyleminin hücre düzeyinde kaydı, varlık türü, güven ve kullanılan sütun bağlamı sinyali ile

HR danışmanı için: tanımlayıcı bilgi olmadan faydalar planlaması için eksiksiz bir veri seti. GDPR uyumluluk kaydı için: belirli bir görev için yalnızca gerekli verilerin paylaşıldığını gösteren bir denetim raporu.

Yapılandırılmış Anonimleştirme ile Karşılanan GDPR Madde 5 Gereksinimleri

Elektronik tabloya özgü anonimleştirme, üç Madde 5 ilkesini aynı anda karşılar:

Veri minimizasyonu (Madde 5(1)(c)): Belirli amaç için gerekli olan sütunlar paylaşılır; tanımlayıcı sütunlar anonimleştirilir.

Saklama sınırlaması (Madde 5(1)(e)): Orijinal dosyalar (tanımlayıcı verilerle) yasal saklama süreleri için saklanır; daha kısa veya hiç saklama gereksinimi olmayan paylaşım bağlamları için anonimleştirilmiş versiyonlar oluşturulur.

Bütünlük ve gizlilik (Madde 5(1)(f)): Tanımlayıcı veriler tüm paylaşım durumlarından kaldırılır; yalnızca anonimleştirilmiş versiyonlar kontrol ortamını terk eder.

Anonimleştirme sürecinden elde edilen denetim izi, her işlenen elektronik tablo için her ilkeye uyumu gösteren Madde 5(2) hesap verebilirlik belgelerini sağlar.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.