Yapılandırılmış vs. Serbest Metin PII Problemi
Akademik kurumlar arasında paylaşılan araştırma verileri en yaygın olarak CSV formatında taşınır. Araştırmacılar CSV'leri paylaşmak için hazırlarken, standart anonimleştirme kontrol listesi sütun bazlıdır: kişisel verileri içeren sütunları tanımlayın, bu sütunları silin veya takma adlandırın.
Bu yaklaşım, yapılandırılmış PII'yi güvenilir bir şekilde ele alır. "email" adlı sütun e-posta adreslerini içerir — silin. "phone" adlı sütun telefon numaralarını içerir — silin. "participant_name" adlı sütun isimleri içerir — takma adlandırın.
Sütun silme yaklaşımının gözden kaçırdığı şey: serbest metin yanıt sütunlarında gömülü PII.
5,000 satır ve 20 sütundan oluşan bir anket veri seti şu şekilde olabilir:
- 5 yapılandırılmış PII sütunu (isim, e-posta, telefon, kimlik, doğum yılı)
- 15 serbest metin yanıt sütunu ("ek_yorumlar", "deneyimi_tanımla", "ne_geliştirir", "diğer_detaylar")
Yapılandırılmış sütunlar sütun silme ile temizlenir. Serbest metin sütunları olduğu gibi bırakılır. Ancak anket katılımcıları şunları yazar:
- "Boston Medical Center'daki doktorum Dr. Maria Santos, tedavinin deneysel olduğunu söyledi"
- "2019'daki kazamdan beri bununla uğraşıyorum, John Henderson'ın arabası benimkine çarptı"
- "Daha fazla bilgiye ihtiyacınız olursa, bakım verenime margaret.wells@gmail.com adresinden ulaşabilirsiniz"
Bu girişler, isimli bireyler, kurumsal bağlantılar, sağlık bilgileri ve iletişim detayları içerir — bunların hiçbiri sütun başlıklarında görünmez ve hiçbiri sütun silme anonimleştirmesi tarafından yakalanmaz.
Bunun Neden GDPR'nın Anonimleştirme Standardını İhlal Ettiği
GDPR 26. Recital, anonim verileri "tanımlanmış veya tanımlanabilir bir doğal kişi ile ilgili olmayan bilgi" olarak tanımlar. Anonimleştirme standardı yüksek bir eşiğe sahiptir: veri yalnızca "imkansız" (makul bir tahminle) veri öznesini tanımlamak için anonimdir.
Kısmen anonimleştirilmiş bir araştırma CSV'si — yapılandırılmış sütunlar temizlenmiş, isimli bireyler içeren serbest metin sütunları — bu standardı karşılamaz. Serbest metin yanıtlarındaki isimli bireyler tanımlanabilir ve bu nedenle veri seti GDPR Madde 89 koruma gerekliliklerine tabi kişisel veri olarak kalır.
Bu, birkaç araştırma bağlamı için önemlidir:
Madde 89 araştırma muafiyeti: GDPR Madde 89, kişisel verilerin bilimsel araştırma amaçları için işlenmesine, ancak yalnızca "uygun korumaların" mevcut olduğu durumlarda, azaltılmış yükümlülüklerle izin verir. Kısmen anonimleştirilmiş (ancak hala serbest metin içinde PII içeren) bir veri setini paylaşmak ve bunun Madde 89 korumalarını karşıladığını iddia etmek, uyum başarısızlığıdır.
Araştırma etik kurulu onayı: Çoğu akademik IRB ve etik inceleme kurulu, paylaşılan veri setlerinin gerçekten anonimleştirilmiş olmasını gerektirir. Serbest metin PII'yi koruyan kısmi anonimleştirme genellikle etik onay koşullarını karşılamaz.
Kurumlar arası veri paylaşım anlaşmaları: Araştırma verileri için DSA'lar, paylaşılan verilerin tanımlanmış bir standarda göre anonimleştirilmesi gerektiğini belirtir. GDPR 26. Recital'i ihlal eden kısmi anonimleştirme DSA'yı ihlal edebilir.
Serbest Metin PII Tespiti Teknik Zorluğu
Serbest metin anket yanıtları, en zorlu PII tespit hedeflerinden biridir çünkü:
Bağlamsal adlandırma: "Boston Medical Center'daki Dr. Maria Santos", "Maria Santos"u bir kişi olarak ve "Boston Medical Center"ı bir kuruluş olarak tespit etmek için NER gerektirir — bir anahtar kelime eşleşmesi değil. Desenler öngörülemez.
Tesadüfi tanımlama: "John Henderson'ın arabası benimkine çarptı" ifadesi, "John Henderson"ı bir anlatı bağlamında isimli bir birey olarak tanımlamak için NER gerektirir — bir veri alanı değil, bir hikayede referans verilen bir kişidir.
Beklenmedik formatlarda iletişim bilgileri: Serbest metinde görünen e-posta adresleri ve telefon numaraları, standart dışı formatlara sahip olabilir ("margaret dot wells at gmail" şeklinde) ve yalnızca regex ile tespit edilmesi zor olabilir.
Araştırmaya özgü varlık türleri: Akademik ve klinik araştırma verileri genellikle kurumsal tanımlayıcılar (hastane kimlikleri, araştırma alanı kodları), klinik terminoloji ve bağlamda PII olan yer referansları içerir.
Bu nedenle, gerçek serbest metin anket anonimleştirmesi için yalnızca desen eşleştirmesi değil, NLP tabanlı tespit gereklidir.
Kullanım Durumu: Çok Kurumlu Araştırma Konsorsiyumu
Üç Avrupa üniversitesinde bir araştırma konsorsiyumu, bir hasta deneyimi anketi gerçekleştirdi: 5,000 katılımcı, 3 yapılandırılmış PII sütunu ve 8 serbest metin yanıt sütunu. Verilerin, bir Veri Paylaşım Anlaşması ve GDPR Madde 89 muafiyeti kapsamında kurumlar arasında işbirlikçi analiz için paylaşılması planlandı.
Standart yaklaşım (sadece sütun silme):
- 3 yapılandırılmış PII sütunu kaldırıldı
- 8 serbest metin sütunu olduğu gibi bırakıldı
- Uyum iddiası: "PII sütunları silindi"
- Gerçek kalan PII: serbest metin yanıtlarında bahsedilen 47 isimli birey, yorumlarda gönüllü olarak verilen 23 e-posta adresi, bağlamda katılımcıları tanımlayabilecek 18 yer referansı
Serbest metin NLP tespiti ile:
- 3 yapılandırılmış PII sütunu takma adlandırıldı (tutarlı token'lar, silinmedi — satır sayısı bütünlüğünü koruyarak)
- 8 serbest metin sütunu işlendi: 47 kişi adı tespit edildi ve değiştirildi, 23 e-posta adresi tespit edildi ve maskeleme yapıldı, 18 yer referansı tespit edildi ve genelleştirildi ("Boston Medical Center" → "[Sağlık Kurumu]")
- Çıktı: GDPR 26. Recital standardını karşılayan gerçekten anonimleştirilmiş veri seti
- Araştırma etik komitesi anonimleştirme metodolojisini kabul etti
- DSA uyumu DPO incelemesi ile onaylandı
Fark: ikinci yaklaşım, gerçekten anonimleştirme standardını karşılayan bir veri seti üretir. İlk yaklaşım, anonimleştirilmiş gibi görünen ancak gözden geçirilmemiş sütunlarda tanımlanabilir bilgiler içeren bir veri seti üretir.
Araştırma Verisi Anonimleştirme Protokolü Oluşturma
Anket ve görüşme verileri ile çalışan araştırma ekipleri için yapılandırılmış bir ön paylaşım protokolü:
Adım 1: Sütun sınıflandırması
- Tüm sütunları kategorize edin: yapılandırılmış PII, yapılandırılmış PII olmayan, serbest metin yanıt
- Sınıflandırmayı belgeleyin
Adım 2: Yapılandırılmış PII işleme
- Silin (araştırma için gerekli değilse) veya takma adlandırın (kayıt bağlantısı için gerekli ise)
- Kullanılan yer değiştirme token'larını belgeleyin
Adım 3: Serbest metin içerik analizi
- Tüm serbest metin sütunlarında NLP tespiti yapın
- Tespit edilen varlıkları gözden geçirin: hangilerinin gerçek PII'yi temsil ettiğini onaylayın
- Onaylanan PII varlıkları için yer değiştirmeleri uygulayın
Adım 4: Doğrulama
- Çıktı veri setinden 50-100 satır örnek alın
- Tespit edilen varlıkları içeren herhangi bir serbest metin girişi için manuel inceleme yapın
- Tespit oranının sütun türü için uygun olduğunu onaylayın
Adım 5: Belgelendirme
- Anonimleştirme metodolojisi belgesi: kullanılan araçlar, tespit edilen varlık türleri, işlenen sütunlar
- Anonimleştirilmiş veri seti ile birlikte metodoloji belgesini etik inceleme için paylaşın
Bu protokol, "isim sütununu sildik" ifadesini, GDPR Madde 89 ve kurumsal araştırma etik gerekliliklerini karşılayan savunulabilir, belgelenmiş bir anonimleştirme sürecine dönüştürür.
Kaynaklar: