anonym.legal
กลับไปที่บล็อกGDPR & การปฏิบัติตาม

PII ในการตีพิมพ์วิจัย: ทำไมภาพหน้าจอการวิเคราะห์ข้อมูล...

งานวิจัยเชิงวิชาการมักรวม pandas DataFrames และ R output ที่แสดงบันทึกผู้ป่วยจริงเป็นตัวอย่าง Methodology นี่คือเหตุผลที่ถือเป็นการละเมิด GDPR

April 21, 20267 อ่านประมาณ
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

ปัญหา Research Publication

นักวิจัยมักรวม output การวิเคราะห์ข้อมูลในบทความ:

df.head(5)
nameageconditionhospital
John Smith45DiabetesSt. Mary's
Jane Doe62HypertensionGeneral

บทความนี้อาจละเมิด GDPR แม้ว่าชื่อจะ 'สุ่ม' เนื่องจากการรวมกัน (age, condition, hospital) อาจ re-identify บุคคล

Quasi-Identifier Problem

ข้อมูลที่ไม่ระบุตัวตนโดยตรงแต่เมื่อรวมกันสามารถระบุตัวตนได้:

  • อายุ + รหัสไปรษณีย์ + เงื่อนไขสุขภาพ → ระบุตัวตนได้สูง
  • EDPB ถือว่า quasi-identifiers ต้องได้รับการป้องกัน

วิธีแก้ไข

  1. ใช้ synthetic data สำหรับตัวอย่างใน papers
  2. Aggregate data ก่อน publish
  3. ใช้ PII anonymization ก่อน screenshot

แหล่งที่มา:

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.