ปัญหาข้อความอิสระใน CSV
การสำรวจ CSV มี PII ฝังอยู่ในคำตอบข้อความอิสระ:
- "ฉันทำงานที่ Google ในทีม Search"
- "ฉันอาศัยอยู่ใกล้โรงพยาบาล St. Jude"
- "หมายเลขสมาชิกของฉันคือ M-23456"
การลบคอลัมน์ที่มีชื่อและอีเมลพลาด PII ทั้งหมดนี้
วิธีตรวจจับที่ถูกต้อง
- วิเคราะห์คอลัมน์โครงสร้าง: ลบ PII ที่รู้จักในคอลัมน์ที่มีชื่อ
- NLP บนข้อความอิสระ: ใช้ NER เพื่อตรวจจับชื่อ สถาบัน และตัวระบุในคำตอบ
- ตรวจสอบผล: นักวิจัยตรวจสอบก่อน publish
ข้อกำหนด GDPR สำหรับการแชร์ข้อมูลวิจัย
GDPR มาตรา 89 ให้ flexibility สำหรับการวิจัยแต่กำหนดให้ข้อมูลทำให้ไม่ระบุตัวตนได้อย่างแท้จริง การ anonymization ที่ไม่ครบถ้วนเป็น GDPR violation
แหล่งที่มา: