Lỗ Hổng Mà Xóa Cột Bỏ Lỡ
Cập nhật cho năm 2026
Các bộ dữ liệu nghiên cứu di chuyển giữa các trường đại học dưới dạng tệp CSV. Khi các nhóm chuẩn bị CSV để chia sẻ, công việc dựa trên cột. Tìm thông tin cá nhân. Xóa hoặc thay thế nó.
Phương pháp đó hoạt động với các trường cố định. Một cột có tên "email" chứa địa chỉ email — xóa nó. Một cột có tên "điện thoại" chứa số điện thoại — xóa nó. Một cột có tên "tên_tham_gia" chứa tên — đổi bằng mã.
Nhưng các cột phản hồi văn bản tự do là điểm mù. Việc xóa các cột có nhãn không ảnh hưởng đến chúng.
Một cuộc khảo sát với 5.000 hàng có thể có năm cột PII có cấu trúc và mười lăm cột phản hồi văn bản mở. Các cột có cấu trúc chứa tên, email, số điện thoại, ID và năm sinh. Các cột văn bản mở chứa nhận xét, ghi chú và đề xuất.
Các cột có cấu trúc được làm sạch. Các cột văn bản mở ở nguyên dạng thô. Nhưng mọi người viết những điều như ba ví dụ sau.
Thứ nhất: "Bác sĩ của tôi tại Boston Medical Center, Dr. Maria Santos, nói rằng phương pháp điều trị là mới." Thứ hai: "Tôi đã phải đối phó với điều này từ vụ tai nạn năm 2019 của mình." Thứ ba: "Bạn có thể liên hệ với người chăm sóc của tôi tại margaret.wells@gmail.com để biết thêm chi tiết."
Mỗi mục đặt tên một người thực. Một số bao gồm sự kiện sức khỏe hoặc thông tin liên hệ. Không có gì trong số này xuất hiện trong tiêu đề cột. Không có gì được bắt bởi xóa cột.
Tại Sao Điều Này Không Đạt Tiêu Chuẩn GDPR
GDPR Recital 26 định nghĩa hồ sơ ẩn danh là hồ sơ không thể liên kết với bất kỳ người nào. Tiêu chuẩn cao. Hồ sơ chỉ thực sự ẩn danh khi việc tái định danh là không thể về mặt hợp lý.
Một CSV với các cột cố định sạch nhưng có tên người trong văn bản mở không vượt qua được bài kiểm tra đó. Những tên đó có thể xác định được. Bộ dữ liệu vẫn là cá nhân. Các quy tắc Điều 89 GDPR vẫn áp dụng. Vì vậy ba rủi ro này nảy sinh.
Miễn trừ nghiên cứu Điều 89: Điều 89 cho phép các nhà nghiên cứu xử lý thông tin cá nhân cho khoa học với ít nghĩa vụ hơn. Nhưng chỉ khi "các biện pháp bảo vệ thích hợp" tồn tại. Chia sẻ tệp với PII văn bản mở trong khi tuyên bố bảo vệ Điều 89 là thất bại pháp lý.
Phê duyệt đạo đức: Hầu hết các IRB và hội đồng đạo đức yêu cầu ẩn danh hóa hoàn toàn cho các bộ dữ liệu được chia sẻ. Công việc một phần — các cột cố định được làm sạch, văn bản mở để thô — thường thất bại. Hội đồng có thể từ chối bản nộp.
Thỏa thuận chia sẻ dữ liệu: DSA giữa các tổ chức đặt mức ẩn danh hóa bắt buộc. Công việc một phần không đạt GDPR Recital 26 có thể vi phạm DSA. Xem Tổng quan Tuân thủ Pháp lý của chúng tôi để biết cách điều này phù hợp với chương trình rộng hơn.
Tại Sao Văn Bản Mở Rất Khó Làm Sạch
Câu trả lời khảo sát văn bản tự do nằm trong số các mục tiêu PII khó nhất. Đây là lý do.
Tên trong ngữ cảnh: "Dr. Maria Santos tại Boston Medical Center" yêu cầu nhận dạng thực thể được đặt tên (NER) để đánh dấu một người và một tổ chức. Danh sách từ khóa không thể tìm thấy điều này.
Tên trong câu chuyện: "Xe của John Henderson đâm vào xe của tôi" đặt tên thực vào trong một câu chuyện. Đó là một người được đặt tên trong khi đi qua. Chỉ NER mới bắt được nó.
Định dạng phi tiêu chuẩn: Thông tin liên hệ có thể đọc "liên hệ tôi tại margaret chấm wells tại gmail." Các công cụ regex đơn giản bỏ lỡ những điều này.
Thuật ngữ dành riêng cho nghiên cứu: Các cuộc khảo sát lâm sàng thường chứa ID bệnh viện, mã địa điểm và tên địa điểm. Những điều này có thể xác định một người ngay cả khi chúng trông chung chung.
Vì vậy, khớp mẫu đơn thuần là không đủ. Cần các công cụ dựa trên NLP để ẩn danh hóa khảo sát thực sự. Xem Bảo mật & Tuân thủ để biết các tùy chọn kỹ thuật.
Ví Dụ Thực Tế Từ Ba Trường Đại Học
Một nhóm nghiên cứu tại ba trường đại học châu Âu đã thực hiện khảo sát trải nghiệm bệnh nhân. Bộ dữ liệu có 5.000 người trả lời, 3 cột PII cố định và 8 cột văn bản mở. Kế hoạch là chia sẻ tệp qua các địa điểm theo DSA và Điều 89 GDPR.
Chỉ xóa cột:
- Cột PII cố định: đã xóa
- Cột văn bản mở: để thô
- Tuyên bố: "Cột PII đã xóa"
- PII còn lại: 47 người được đặt tên, 23 địa chỉ email trong nhận xét, 18 tên địa điểm có thể xác định người trả lời
Với phát hiện dựa trên NLP:
- Cột PII cố định: được thay thế bằng token nhất quán
- Cột văn bản mở: 47 tên được thay thế, 23 email bị che giấu, 18 tên địa điểm được làm chung ("Boston Medical Center" → "[Cơ Sở Y Tế]")
- Kết quả: tệp vượt qua GDPR Recital 26
- Hội đồng đạo đức phê duyệt phương pháp
- DPO xác nhận tuân thủ DSA
Lỗ hổng là thực. Đầu ra đầu tiên trông sạch. Đầu ra thứ hai sạch.
Giao Thức Năm Bước Trước Khi Chia Sẻ
Sử dụng các bước này trước khi chia sẻ bất kỳ tệp khảo sát hoặc phỏng vấn nào.
Bước 1: Gán nhãn mỗi cột Đánh dấu mọi cột là PII cố định, phi PII cố định hoặc văn bản mở. Ghi lại.
Bước 2: Xử lý PII cố định Xóa các mục không cần cho phân tích. Thay thế các mục cần để liên kết hồ sơ. Ghi lại các mã được sử dụng.
Bước 3: Quét các cột văn bản mở Chạy phát hiện NLP trên tất cả các cột văn bản mở. Xem xét từng kết quả. Xác nhận cái nào là PII thực.
Bước 4: Áp dụng thay thế
Thay thế PII đã xác nhận trong đầu ra văn bản mở. Sử dụng nhãn rõ ràng như [PERSON], [EMAIL] hoặc [LOCATION].
Bước 5: Xác minh và ghi lại Lấy mẫu 50–100 hàng từ đầu ra. Kiểm tra các mục văn bản mở bằng tay. Viết một bản tóm tắt ngắn: công cụ được sử dụng, loại thực thể được tìm thấy, các cột được xử lý. Chia sẻ nó với tệp để xem xét đạo đức.
Điều này biến "chúng tôi đã xóa cột tên" thành một quy trình rõ ràng, được ghi lại. Nó đáp ứng Điều 89 GDPR và các tiêu chuẩn ẩn danh hóa mà hầu hết các hội đồng đạo đức yêu cầu. Truy cập trung tâm tài liệu của chúng tôi để biết các hướng dẫn liên quan.
Nguồn Tham Khảo
- Điều 89 GDPR: Các Biện Pháp Bảo Vệ Cho Nghiên Cứu Khoa Học — ĐÃ XÁC MINH-NGOẠI
- GDPR Recital 26: Nguyên Tắc Ẩn Danh Hóa — ĐÃ XÁC MINH-NGOẠI
- ICO: Ẩn Danh Hóa và Rủi Ro Bảo Vệ Dữ Liệu — ĐÃ XÁC MINH-NGOẠI