Quay lại BlogKỹ Thuật

Dữ Liệu Huấn Luyện ML Tuân Thủ GDPR...

GDPR hạn chế việc sử dụng dữ liệu cá nhân để huấn luyện ML vượt quá mục đích thu thập ban đầu.

April 19, 20267 phút đọc
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Dữ Liệu Huấn Luyện ML Tuân Thủ GDPR: Ẩn Danh Hóa 10.000 Bản Ghi Mà Không Cần Viết Mã

Mỗi đội ngũ khoa học dữ liệu xử lý dữ liệu phải tuân thủ GDPR đều đã viết một phiên bản của tập lệnh này:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Đây không phải tuân thủ GDPR. Đó chỉ là thay thế địa chỉ email. Bộ dữ liệu vẫn còn chứa tên, số điện thoại, ID hồ sơ y tế và một tá loại PII khác sẽ gây ra lỗi tuân thủ.

Khoảng cách giữa "Tôi đã ẩn danh hóa email" và "bộ dữ liệu này tuân thủ GDPR cho huấn luyện ML" rất lớn, có hệ quả và thường bị đánh giá thấp.

Tại Sao GDPR Hạn Chế Sử Dụng Dữ Liệu Huấn Luyện ML

Nguyên tắc hạn chế mục đích của GDPR (Điều 5(1)(b)) quy định rằng dữ liệu cá nhân có thể được thu thập cho các mục đích được chỉ định, rõ ràng và hợp pháp, và không được xử lý thêm theo cách không tương thích với các mục đích đó.

Dữ liệu khách hàng được thu thập để hoàn tất đơn hàng không được thu thập cho mục đích huấn luyện mô hình khuyến nghị. Dữ liệu hồ sơ y tế được thu thập để điều trị không được thu thập để huấn luyện mô hình dự đoán tái nhập viện. Dữ liệu phản hồi khảo sát được thu thập cho phản hồi sản phẩm không được thu thập để huấn luyện mô hình phân tích tâm tư.

Sử dụng dữ liệu này để huấn luyện ML yêu cầu:

  1. Sự đồng ý rõ ràng từ mỗi chủ thể dữ liệu cho mục đích huấn luyện ML (phức tạp về mặt hoạt động, thường không thể thực hiện retroactively)
  2. Đánh giá quyền lợi hợp pháp cho thấy lý thuyết xử lý là cần thiết

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.