ช่องว่างที่การลบคอลัมน์พลาด
อัปเดตสำหรับปี 2026
ชุดข้อมูลการวิจัยเคลื่อนย้ายระหว่างมหาวิทยาลัยในรูปแบบ CSV เมื่อทีมเตรียม CSV สำหรับการแชร์ งานนั้นอิงตามคอลัมน์ ค้นหาข้อมูลส่วนบุคคล ลบหรือแทนที่
วิธีนั้นใช้ได้สำหรับฟิลด์คงที่ คอลัมน์ที่ชื่อว่า "email" มีที่อยู่อีเมล — ลบ คอลัมน์ที่ชื่อว่า "phone" มีหมายเลขโทรศัพท์ — ลบ คอลัมน์ที่ชื่อว่า "participant_name" มีชื่อ — แทนที่ด้วยรหัส
แต่คอลัมน์คำตอบข้อความอิสระเป็นจุดบอด การลบคอลัมน์ที่มีป้ายกำกับไม่แตะต้องพวกมัน
แบบสำรวจที่มี 5,000 แถวอาจมีคอลัมน์ PII ที่มีโครงสร้างห้าคอลัมน์และคอลัมน์คำตอบข้อความเปิดสิบห้าคอลัมน์ คอลัมน์ที่มีโครงสร้างมีชื่อ อีเมล หมายเลขโทรศัพท์ รหัส และปีเกิด คอลัมน์ข้อความเปิดมีความคิดเห็น หมายเหตุ และข้อเสนอแนะ
คอลัมน์ที่มีโครงสร้างได้รับการทำความสะอาด คอลัมน์ข้อความเปิดยังคงดิบ แต่ผู้คนเขียนสิ่งเหล่านี้:
อันแรก: "แพทย์ของฉันที่ Boston Medical Center, Dr. Maria Santos, บอกว่าการรักษานั้นใหม่" อันที่สอง: "ฉันจัดการเรื่องนี้มาตั้งแต่อุบัติเหตุปี 2019" อันที่สาม: "คุณสามารถติดต่อผู้ดูแลของฉันที่ margaret.wells@gmail.com สำหรับรายละเอียด"
แต่ละรายการระบุชื่อบุคคลจริง บางรายการรวมข้อเท็จจริงด้านสุขภาพหรือข้อมูลติดต่อ ไม่มีรายการใดปรากฏในส่วนหัวคอลัมน์ ไม่มีรายการใดถูกจับโดยการลบคอลัมน์
เหตุใดสิ่งนี้จึงล้มเหลวตามมาตรฐาน GDPR
GDPR บทที่ 26 กำหนดบันทึกไม่ระบุชื่อว่าเป็นบันทึกที่ไม่สามารถเชื่อมโยงกับบุคคลใดๆ แถบนั้นสูง บันทึกเป็นไม่ระบุชื่อจริงๆ เมื่อการระบุตัวตนซ้ำไม่สามารถทำได้อย่างสมเหตุสมผล
CSV ที่มีคอลัมน์คงที่ที่สะอาดแต่มีผู้คนที่ระบุชื่อในข้อความเปิดไม่ผ่านการทดสอบนั้น ชื่อเหล่านั้นสามารถระบุตัวตนได้ ชุดข้อมูลยังคงเป็นส่วนบุคคล กฎ GDPR มาตรา 89 ยังใช้บังคับ ดังนั้นความเสี่ยงสามประการนี้จึงเกิดขึ้น
การยกเว้นการวิจัยมาตรา 89: มาตรา 89 อนุญาตให้นักวิจัยประมวลผลข้อมูลส่วนบุคคลสำหรับวิทยาศาสตร์โดยมีหน้าที่น้อยลง แต่เฉพาะที่มี "มาตรการป้องกันที่เหมาะสม" การแชร์ไฟล์ที่มี PII ข้อความเปิดในขณะที่อ้างความคุ้มครองมาตรา 89 เป็นความล้มเหลวทางกฎหมาย
การอนุมัติจริยธรรม: IRB และคณะกรรมการจริยธรรมส่วนใหญ่กำหนดให้ต้องไม่ระบุตัวตนอย่างสมบูรณ์สำหรับชุดข้อมูลที่แชร์ งานบางส่วน — คอลัมน์คงที่ทำความสะอาด ข้อความเปิดปล่อยดิบ — มักล้มเหลว คณะกรรมการสามารถปฏิเสธการส่ง
ข้อตกลงการแชร์ข้อมูล: DSA ระหว่างสถาบันกำหนดระดับการไม่ระบุตัวตนที่กำหนด งานบางส่วนที่ล้มเหลว GDPR บทที่ 26 อาจละเมิด DSA
เหตุใดข้อความเปิดจึงยากที่จะทำความสะอาด
คำตอบแบบสำรวจข้อความอิสระเป็นเป้าหมาย PII ที่ยากที่สุด นี่คือเหตุผล
ชื่อในบริบท: "Dr. Maria Santos ที่ Boston Medical Center" ต้องการการรู้จำเอนทิตีที่ตั้งชื่อ (NER) เพื่อตั้งค่าสถานะบุคคลและองค์กร รายการคำหลักไม่สามารถหาสิ่งนี้ได้
ชื่อในเรื่องราว: "รถของ John Henderson ชนรถฉัน" ใส่ชื่อจริงไว้ในเรื่องราว มันเป็นบุคคลที่กล่าวถึงในการผ่าน มีเพียง NER เท่านั้นที่จับได้
รูปแบบที่ไม่ใช่มาตรฐาน: ข้อมูลติดต่ออาจอ่านว่า "ติดต่อฉันที่ margaret dot wells at gmail" เครื่องมือ regex ง่ายๆ พลาดสิ่งเหล่านี้
คำศัพท์เฉพาะการวิจัย: แบบสำรวจทางคลินิกมักมีรหัสโรงพยาบาล รหัสสถานที่ และชื่อสถานที่ สิ่งเหล่านี้สามารถระบุตัวบุคคลได้แม้ว่าจะดูทั่วไป
ตัวอย่างจริงจากสามมหาวิทยาลัย
ทีมวิจัยที่มหาวิทยาลัยยุโรปสามแห่งดำเนินการแบบสำรวจประสบการณ์ผู้ป่วย ชุดข้อมูลมีผู้ตอบ 5,000 คน คอลัมน์ PII คงที่ 3 คอลัมน์ และคอลัมน์ข้อความเปิด 8 คอลัมน์ แผนคือการแชร์ไฟล์ระหว่างสถานที่ภายใต้ DSA และ GDPR มาตรา 89
ด้วยการลบคอลัมน์เท่านั้น:
- คอลัมน์ PII คงที่: ลบออก
- คอลัมน์ข้อความเปิด: ปล่อยดิบ
- การอ้างสิทธิ์: "ลบคอลัมน์ PII แล้ว"
- PII ที่เหลือ: ผู้คน 47 คนที่ระบุชื่อ ที่อยู่อีเมล 23 รายการในความคิดเห็น ชื่อสถานที่ 18 แห่งที่อาจระบุตัวผู้ตอบ
ด้วยการตรวจจับตาม NLP:
- คอลัมน์ PII คงที่: แทนที่ด้วยโทเค็นสอดคล้องกัน
- คอลัมน์ข้อความเปิด: 47 ชื่อแทนที่ 23 อีเมลปิดบัง 18 ชื่อสถานที่ทำให้ทั่วไป ("Boston Medical Center" → "[Healthcare Institution]")
- ผล: ไฟล์ที่ผ่าน GDPR บทที่ 26
- คณะกรรมการจริยธรรมอนุมัติวิธีการ
- DPO ยืนยันการปฏิบัติตาม DSA
โปรโตคอลก่อนการแชร์ห้าขั้นตอน
ใช้ขั้นตอนเหล่านี้ก่อนแชร์ไฟล์แบบสำรวจหรือสัมภาษณ์ใดๆ
ขั้นตอนที่ 1: ติดป้ายกำกับแต่ละคอลัมน์ ทำเครื่องหมายทุกคอลัมน์เป็น PII คงที่ ไม่ใช่ PII คงที่ หรือข้อความเปิด จดไว้
ขั้นตอนที่ 2: จัดการ PII คงที่ ลบรายการที่ไม่จำเป็นสำหรับการวิเคราะห์ แทนที่รายการที่จำเป็นสำหรับการเชื่อมโยงบันทึก บันทึกรหัสที่ใช้
ขั้นตอนที่ 3: สแกนคอลัมน์ข้อความเปิด รันการตรวจจับ NLP บนคอลัมน์ข้อความเปิดทั้งหมด ตรวจสอบผลแต่ละรายการ ยืนยันว่ารายการใดเป็น PII จริง
ขั้นตอนที่ 4: ใช้การแทนที่
แทนที่ PII ที่ยืนยันในเอาต์พุตข้อความเปิด ใช้ป้ายกำกับที่ชัดเจนเช่น [PERSON], [EMAIL] หรือ [LOCATION]
ขั้นตอนที่ 5: ตรวจสอบและบันทึก สุ่มตัวอย่าง 50-100 แถวจากเอาต์พุต ตรวจสอบรายการข้อความเปิดด้วยตนเอง เขียนสรุปสั้น: เครื่องมือที่ใช้ ประเภทเอนทิตีที่พบ คอลัมน์ที่ประมวลผล แชร์กับไฟล์สำหรับการตรวจสอบจริยธรรม
สิ่งนี้เปลี่ยน "เราลบคอลัมน์ชื่อ" เป็นกระบวนการที่ชัดเจนและมีเอกสาร มันตอบสนอง GDPR มาตรา 89 และมาตรฐานการไม่ระบุตัวตนที่คณะกรรมการจริยธรรมส่วนใหญ่กำหนด