ปัญหา Research Publication
นักวิจัยมักรวม output การวิเคราะห์ข้อมูลในบทความ:
df.head(5)
| name | age | condition | hospital |
|---|---|---|---|
| John Smith | 45 | Diabetes | St. Mary's |
| Jane Doe | 62 | Hypertension | General |
บทความนี้อาจละเมิด GDPR แม้ว่าชื่อจะ 'สุ่ม' เนื่องจากการรวมกัน (age, condition, hospital) อาจ re-identify บุคคล
Quasi-Identifier Problem
ข้อมูลที่ไม่ระบุตัวตนโดยตรงแต่เมื่อรวมกันสามารถระบุตัวตนได้:
- อายุ + รหัสไปรษณีย์ + เงื่อนไขสุขภาพ → ระบุตัวตนได้สูง
- EDPB ถือว่า quasi-identifiers ต้องได้รับการป้องกัน
วิธีแก้ไข
- ใช้ synthetic data สำหรับตัวอย่างใน papers
- Aggregate data ก่อน publish
- ใช้ PII anonymization ก่อน screenshot
แหล่งที่มา: