Bloga DönGDPR & Uyumluluk

Araştırma Yayını PII: Veri Analizi Ekran...

Akademik makaleler düzenli olarak metodoloji örnekleri olarak gerçek hasta kayıtlarını gösteren pandas DataFrame'leri ve R çıktıları içerir.

April 21, 20267 dk okuma
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Metodoloji Ekran Görüntüsü Problemi

Akademik ve araştırma yayınları, metodolojiyi gösterirken gerçek verileri içeren veri analizi ortamlarının ekran görüntülerini içeren, yeterince değerlendirilmeyen bir GDPR riski yaratan bir dokümantasyon modeli geliştirmiştir.

Senaryolar yaygındır:

  • Bir makine öğrenimi makalesi, eğitim veri setinin ilk 10 satırını gösteren bir pandas DataFrame ekran görüntüsü içerir — bu veri kaynağından gerçek hasta kayıtlarını içerir
  • Bir klinik veri analizi makalesi, hasta kimliklerinin kısmen görünür olduğu bir özet tabloda bireysel hasta değerlerini gösteren R çıktısını gösterir
  • Bir hesaplamalı sosyal bilimler makalesi, analiz prosedürünü açıklarken bireysel anket yanıtlayıcı değerlerini gösteren SPSS çıktı tablolarını içerir
  • Bir araştırma dergisinde yayımlanan bir veri mühendisliği eğitimi, illüstrasyon için "örnek veri" olarak kullanılan gerçek kullanıcı kayıtları ile Jupyter not defteri ekran görüntüleri içerir

Her durumda, yazar kişisel verileri yayımlamayı amaçlamamıştır. Ekran görüntüsü, metodolojiyi belgelemek için dahil edilmiştir. Ekran görüntüsündeki kişisel veriler tesadüfidir — örneği somut hale getirmek için oradadır.

Ancak "tesadüfi" olması, uyumlu olduğu anlamına gelmez. GDPR Madde 4(1), kişisel veriyi, tanımlanmış veya tanımlanabilir bir doğal kişi ile ilgili herhangi bir bilgi olarak tanımlar. Yayınlanmış bir makalede bir hasta kaydı — hatta bir ekran görüntüsü olarak — kişisel veridir. Bunu, hastanın rızası olmadan veya Madde 6 uyarınca başka bir yasal dayanak olmadan yayımlamak, bir GDPR ihlalidir.

Bunun Somut Hukuki Risk Yaratması Neden

Araştırma kurumları giderek artan bir şekilde veri yayımlama hataları nedeniyle GDPR uygulamalarıyla karşı karşıya kalmaktadır. Ana gelişmeler:

Dergi geri çekme talepleri: GDPR silme hakkı (Madde 17), yayımlanan verilere de uzanır. Eğer bir veri sahibi, kişisel verilerini yayımlanmış bir makalede keşfederse, silme talep edebilir — bu, bir dergi makalesi için genellikle geri çekme veya düzeltme bildirimi anlamına gelir. Dergi geri çekme, önemli bir mesleki sonuçtur.

Araştırma etik kurulu bulguları: Yayımlanmış araştırmaları GDPR uyumluluğu açısından inceleyen araştırma etik komiteleri, uygun koruma olmaksızın ekran görüntülerinde bireysel düzeyde veriler içeren makaleler için bulgular yayınlamaya başlamıştır. Bu bulgular, araştırmacıların gelecekteki araştırmalar için etik kurullardaki durumunu etkiler.

Veri Erişim Anlaşması ihlalleri: Çoğu araştırma veri seti, verilerin nasıl kullanılabileceğini ve neyin yayımlanabileceğini belirten Veri Erişim Anlaşmaları altında paylaşılmaktadır. Yayın ekran görüntülerinde bireysel düzeyde verilerin, hatta küçük resimlerde dahil edilmesi, DAA'yı ihlal edebilir — sonuçları arasında veri erişim ayrıcalıklarının kaybı bulunmaktadır.

GDPR Madde 89 araştırma muafiyeti sınırlamaları: GDPR Madde 89, bilimsel araştırmalar için kişisel verilerin işlenmesine azaltılmış yükümlülüklerle izin verir — ancak yalnızca "uygun korumaların" uygulandığı durumlarda. Metodoloji ekran görüntülerinde bireysel düzeyde verilerin yayımlanması, anonimleştirme olmaksızın uygun bir koruma değildir; bu bir ifşadır.

Problemin Ölçeği

Olay sıklığı nadir değildir. 2022-2024 yılları arasında yüksek etki faktörüne sahip dergilerde yayımlanan veri bilimi makalelerinin sistematik bir incelemesi, bireysel düzeyde verilerin görünür olduğu görüntüleri içeren önemli bir oran bulacaktır.

Katkıda bulunan faktörler:

Yeniden üretilebilirlik normları: Modern bilimsel yayıncılık, yöntemlerin sonuçları yeniden üretmek için yeterli ayrıntıyla belgelenmesini giderek daha fazla gerektirmektedir. Analiz ortamlarının ekran görüntüleri, bu normu karşıladığı görülmektedir.

Yayın hızı: Son tarih baskısı altında, araştırmacılar her görüntüyü veri içeriği açısından gözden geçirmeden hızla ekran görüntüleri üretmektedir.

Görüntülerde verilerin düşük görünürlüğü: 20 sütun ve 5 satırlık bir DataFrame ekran görüntüsü, araştırmacının analiz prosedürünü belgelerken odaklanmadığı çevresel sütunlarda isimler ve kimlikler içerebilir.

Gönderim iş akışlarında otomatik kontrol yok: Standart dergi gönderim portalları, tamlık kontrolleri, format kontrolleri ve intihal taraması yapar. Hiçbiri görüntü PII tespiti yapmaz.

Araştırma Grupları için Tarama Uygulaması

Bir araştırma grubunun makale PII taramasını uygulaması için pratik bir iş akışı:

Gönderim öncesi protokol:

  1. Araştırmacı, tüm şekillerle makale taslağını tamamlar
  2. Taslak, iç taramaya (PI veya belirlenen gözden geçiren) sunulur
  3. Makaleye ekli tüm görüntü dosyalarında görüntü PII tespiti gerçekleştirilir
  4. Tespit raporu: hangi görüntülerin okunabilir metin içerdiğini, hangi metinlerin PII varlık desenleriyle eşleştiğini belirler
  5. Araştırmacı, işaretlenen görüntüleri gözden geçirir
  6. Her işaretlenen görüntü için: uygun şekilde anonimleştirilmiş ekran görüntüsü ile değiştirilir (hasta kimliği 12847'yi ID 00001 ile değiştir, gerçek ismi "Hasta A" ile değiştir)
  7. Nihai makale, anonimleştirilmiş ekran görüntüleri ile dergiye sunulur

Teknik entegrasyon seçenekleri:

  • Manuel: tüm makale görüntülerini dışa aktar, toplu görüntü PII tespiti gerçekleştir, raporu gözden geçir
  • Yarı otomatik: taslak makalelerin bırakıldığı özel bir klasör; yeni dosyalar üzerinde haftalık toplu işleme çalışmaları
  • İş akışına entegre: gönderim öncesi tarama adımı olan kurumsal gönderim portalı

Tarama süresinin maliyeti düşüktür: tipik bir 15 şekilli makale için, görüntü PII tespiti 2 dakikadan az sürer. Bir geri çekme veya etik kurulu bulgusunun maliyeti aylarca ölçülmektedir.

Kullanım Durumu: Avrupa Üniversitesi Araştırma Etik Gereksinimi

Bir Avrupa üniversitesindeki veri bilimi araştırma grubu, bir gönderim öncesi akışın parçası olarak görüntü PII taramasını uygulamıştır; bu, bir gönderilen makalenin incelemesinde, metodoloji örneği olarak dahil edilen bir DataFrame ekran görüntüsünde bireysel hasta isimlerinin tespit edilmesiyle gerçekleşmiştir.

Uygulama:

  • Tüm taslak makaleler, dergilere gönderimden önce görüntü PII için işlenmiştir
  • Tarama, taslaktaki tüm PNG, JPG ve PDF şekillerini kapsar
  • Sonuçlar, grubun belirlenen veri gizliliği iletişim kişisi tarafından gözden geçirilmiştir

Sonuçlar 6 ay boyunca:

  • 23 makale gönderim öncesi tarandı
  • 7 makalede (yüzde 30) tespit edilebilir PII varlıkları olan en az bir görüntü vardı
  • Bulunan varlık türleri: DataFrame'lerde hasta isimleri (4 makale), hasta kayıt formatlarıyla eşleşen kullanıcı kimlikleri (2 makale), ekran görüntüsü kenarlarında e-posta adresleri (1 makale)
  • Tüm 7 makale, gönderimden önce düzeltildi
  • Dönem boyunca sıfır gönderim sonrası geri çekme talebi veya etik bulgusu

Kuruluşun araştırma etik komitesi, artık bu iş akışını GDPR Madde 89 araştırma muafiyeti başvurularında "uygun korumalar" için belgelenmiş bir örnek olarak kullanmaktadır.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.