ช่องว่างที่การลบคอลัมน์พลาด

อัปเดตสำหรับปี 2026

ชุดข้อมูลการวิจัยเคลื่อนย้ายระหว่างมหาวิทยาลัยในรูปแบบ CSV เมื่อทีมเตรียม CSV สำหรับการแชร์ งานนั้นอิงตามคอลัมน์ ค้นหาข้อมูลส่วนบุคคล ลบหรือแทนที่

วิธีนั้นใช้ได้สำหรับฟิลด์คงที่ คอลัมน์ที่ชื่อว่า "email" มีที่อยู่อีเมล — ลบ คอลัมน์ที่ชื่อว่า "phone" มีหมายเลขโทรศัพท์ — ลบ คอลัมน์ที่ชื่อว่า "participant_name" มีชื่อ — แทนที่ด้วยรหัส

แต่คอลัมน์คำตอบข้อความอิสระเป็นจุดบอด การลบคอลัมน์ที่มีป้ายกำกับไม่แตะต้องพวกมัน

แบบสำรวจที่มี 5,000 แถวอาจมีคอลัมน์ PII ที่มีโครงสร้างห้าคอลัมน์และคอลัมน์คำตอบข้อความเปิดสิบห้าคอลัมน์ คอลัมน์ที่มีโครงสร้างมีชื่อ อีเมล หมายเลขโทรศัพท์ รหัส และปีเกิด คอลัมน์ข้อความเปิดมีความคิดเห็น หมายเหตุ และข้อเสนอแนะ

คอลัมน์ที่มีโครงสร้างได้รับการทำความสะอาด คอลัมน์ข้อความเปิดยังคงดิบ แต่ผู้คนเขียนสิ่งเหล่านี้:

อันแรก: "แพทย์ของฉันที่ Boston Medical Center, Dr. Maria Santos, บอกว่าการรักษานั้นใหม่" อันที่สอง: "ฉันจัดการเรื่องนี้มาตั้งแต่อุบัติเหตุปี 2019" อันที่สาม: "คุณสามารถติดต่อผู้ดูแลของฉันที่ margaret.wells@gmail.com สำหรับรายละเอียด"

แต่ละรายการระบุชื่อบุคคลจริง บางรายการรวมข้อเท็จจริงด้านสุขภาพหรือข้อมูลติดต่อ ไม่มีรายการใดปรากฏในส่วนหัวคอลัมน์ ไม่มีรายการใดถูกจับโดยการลบคอลัมน์

GDPR บทที่ 26 กำหนดบันทึกไม่ระบุชื่อว่าเป็นบันทึกที่ไม่สามารถเชื่อมโยงกับบุคคลใดๆ แถบนั้นสูง บันทึกเป็นไม่ระบุชื่อจริงๆ เมื่อการระบุตัวตนซ้ำไม่สามารถทำได้อย่างสมเหตุสมผล

CSV ที่มีคอลัมน์คงที่ที่สะอาดแต่มีผู้คนที่ระบุชื่อในข้อความเปิดไม่ผ่านการทดสอบนั้น ชื่อเหล่านั้นสามารถระบุตัวตนได้ ชุดข้อมูลยังคงเป็นส่วนบุคคล กฎ GDPR มาตรา 89 ยังใช้บังคับ ดังนั้นความเสี่ยงสามประการนี้จึงเกิดขึ้น

การยกเว้นการวิจัยมาตรา 89: มาตรา 89 อนุญาตให้นักวิจัยประมวลผลข้อมูลส่วนบุคคลสำหรับวิทยาศาสตร์โดยมีหน้าที่น้อยลง แต่เฉพาะที่มี "มาตรการป้องกันที่เหมาะสม" การแชร์ไฟล์ที่มี PII ข้อความเปิดในขณะที่อ้างความคุ้มครองมาตรา 89 เป็นความล้มเหลวทางกฎหมาย

การอนุมัติจริยธรรม: IRB และคณะกรรมการจริยธรรมส่วนใหญ่กำหนดให้ต้องไม่ระบุตัวตนอย่างสมบูรณ์สำหรับชุดข้อมูลที่แชร์ งานบางส่วน — คอลัมน์คงที่ทำความสะอาด ข้อความเปิดปล่อยดิบ — มักล้มเหลว คณะกรรมการสามารถปฏิเสธการส่ง

ข้อตกลงการแชร์ข้อมูล: DSA ระหว่างสถาบันกำหนดระดับการไม่ระบุตัวตนที่กำหนด งานบางส่วนที่ล้มเหลว GDPR บทที่ 26 อาจละเมิด DSA

เหตุใดข้อความเปิดจึงยากที่จะทำความสะอาด

คำตอบแบบสำรวจข้อความอิสระเป็นเป้าหมาย PII ที่ยากที่สุด นี่คือเหตุผล

ชื่อในบริบท: "Dr. Maria Santos ที่ Boston Medical Center" ต้องการการรู้จำเอนทิตีที่ตั้งชื่อ (NER) เพื่อตั้งค่าสถานะบุคคลและองค์กร รายการคำหลักไม่สามารถหาสิ่งนี้ได้

ชื่อในเรื่องราว: "รถของ John Henderson ชนรถฉัน" ใส่ชื่อจริงไว้ในเรื่องราว มันเป็นบุคคลที่กล่าวถึงในการผ่าน มีเพียง NER เท่านั้นที่จับได้

รูปแบบที่ไม่ใช่มาตรฐาน: ข้อมูลติดต่ออาจอ่านว่า "ติดต่อฉันที่ margaret dot wells at gmail" เครื่องมือ regex ง่ายๆ พลาดสิ่งเหล่านี้

คำศัพท์เฉพาะการวิจัย: แบบสำรวจทางคลินิกมักมีรหัสโรงพยาบาล รหัสสถานที่ และชื่อสถานที่ สิ่งเหล่านี้สามารถระบุตัวบุคคลได้แม้ว่าจะดูทั่วไป

ตัวอย่างจริงจากสามมหาวิทยาลัย

ทีมวิจัยที่มหาวิทยาลัยยุโรปสามแห่งดำเนินการแบบสำรวจประสบการณ์ผู้ป่วย ชุดข้อมูลมีผู้ตอบ 5,000 คน คอลัมน์ PII คงที่ 3 คอลัมน์ และคอลัมน์ข้อความเปิด 8 คอลัมน์ แผนคือการแชร์ไฟล์ระหว่างสถานที่ภายใต้ DSA และ GDPR มาตรา 89

ด้วยการลบคอลัมน์เท่านั้น:

คอลัมน์ PII คงที่: ลบออก
คอลัมน์ข้อความเปิด: ปล่อยดิบ
การอ้างสิทธิ์: "ลบคอลัมน์ PII แล้ว"
PII ที่เหลือ: ผู้คน 47 คนที่ระบุชื่อ ที่อยู่อีเมล 23 รายการในความคิดเห็น ชื่อสถานที่ 18 แห่งที่อาจระบุตัวผู้ตอบ

ด้วยการตรวจจับตาม NLP:

คอลัมน์ PII คงที่: แทนที่ด้วยโทเค็นสอดคล้องกัน
คอลัมน์ข้อความเปิด: 47 ชื่อแทนที่ 23 อีเมลปิดบัง 18 ชื่อสถานที่ทำให้ทั่วไป ("Boston Medical Center" → "[Healthcare Institution]")
ผล: ไฟล์ที่ผ่าน GDPR บทที่ 26
คณะกรรมการจริยธรรมอนุมัติวิธีการ
DPO ยืนยันการปฏิบัติตาม DSA

โปรโตคอลก่อนการแชร์ห้าขั้นตอน

ใช้ขั้นตอนเหล่านี้ก่อนแชร์ไฟล์แบบสำรวจหรือสัมภาษณ์ใดๆ

ขั้นตอนที่ 1: ติดป้ายกำกับแต่ละคอลัมน์ ทำเครื่องหมายทุกคอลัมน์เป็น PII คงที่ ไม่ใช่ PII คงที่ หรือข้อความเปิด จดไว้

ขั้นตอนที่ 2: จัดการ PII คงที่ ลบรายการที่ไม่จำเป็นสำหรับการวิเคราะห์ แทนที่รายการที่จำเป็นสำหรับการเชื่อมโยงบันทึก บันทึกรหัสที่ใช้

ขั้นตอนที่ 3: สแกนคอลัมน์ข้อความเปิด รันการตรวจจับ NLP บนคอลัมน์ข้อความเปิดทั้งหมด ตรวจสอบผลแต่ละรายการ ยืนยันว่ารายการใดเป็น PII จริง

ขั้นตอนที่ 4: ใช้การแทนที่ แทนที่ PII ที่ยืนยันในเอาต์พุตข้อความเปิด ใช้ป้ายกำกับที่ชัดเจนเช่น [PERSON], [EMAIL] หรือ [LOCATION]

ขั้นตอนที่ 5: ตรวจสอบและบันทึก สุ่มตัวอย่าง 50-100 แถวจากเอาต์พุต ตรวจสอบรายการข้อความเปิดด้วยตนเอง เขียนสรุปสั้น: เครื่องมือที่ใช้ ประเภทเอนทิตีที่พบ คอลัมน์ที่ประมวลผล แชร์กับไฟล์สำหรับการตรวจสอบจริยธรรม

สิ่งนี้เปลี่ยน "เราลบคอลัมน์ชื่อ" เป็นกระบวนการที่ชัดเจนและมีเอกสาร มันตอบสนอง GDPR มาตรา 89 และมาตรฐานการไม่ระบุตัวตนที่คณะกรรมการจริยธรรมส่วนใหญ่กำหนด

แหล่งข้อมูล

บทความที่เกี่ยวข้อง

GDPR & การปฏิบัติตาม

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.

เริ่มทดลองใช้ฟรี ดูฟีเจอร์

PII ข้อความอิสระใน CSV: เกินกว่าการลบคอลัมน์

ช่องว่างที่การลบคอลัมน์พลาด

เหตุใดข้อความเปิดจึงยากที่จะทำความสะอาด

ตัวอย่างจริงจากสามมหาวิทยาลัย

โปรโตคอลก่อนการแชร์ห้าขั้นตอน

แหล่งข้อมูล

บทความที่เกี่ยวข้อง

เครื่องมือ PII แบบ Self-Hosted ล้มเหลวในการตรวจสอบ Compliance

Presidio พลาด Entity GDPR กว่า 220 รายการ

Configuration Drift: ความเสี่ยง GDPR ที่ซ่อนอยู่

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

PII ข้อความอิสระใน CSV: เกินกว่าการลบคอลัมน์

ช่องว่างที่การลบคอลัมน์พลาด

เหตุใดสิ่งนี้จึงล้มเหลวตามมาตรฐาน GDPR

เหตุใดข้อความเปิดจึงยากที่จะทำความสะอาด

ตัวอย่างจริงจากสามมหาวิทยาลัย

โปรโตคอลก่อนการแชร์ห้าขั้นตอน

แหล่งข้อมูล

บทความที่เกี่ยวข้อง

เครื่องมือ PII แบบ Self-Hosted ล้มเหลวในการตรวจสอบ Compliance

Presidio พลาด Entity GDPR กว่า 220 รายการ

Configuration Drift: ความเสี่ยง GDPR ที่ซ่อนอยู่

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow