Một Script Là Chưa Đủ

Mỗi nhóm khoa học dữ liệu đều đã từng viết thứ gì đó như thế này:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Đoạn code này thay thế địa chỉ email. Chỉ thế thôi. Bộ dữ liệu vẫn còn tên, số điện thoại, và mã hồ sơ y tế. Nó vẫn sẽ không qua được kiểm toán GDPR.

Khoảng cách giữa "tôi đã ẩn danh hóa email" và "bộ dữ liệu này tuân thủ GDPR" là rất lớn. Các nhóm thường xuyên đánh giá thấp điều đó.

Điều 5(1)(b) GDPR là quy tắc then chốt. Đây được gọi là nguyên tắc giới hạn mục đích. Hồ sơ cá nhân chỉ được sử dụng cho mục đích mà chúng được thu thập.

Đơn đặt hàng khách hàng được thu thập để thực hiện đơn hàng — không phải để huấn luyện mô hình gợi ý. Hồ sơ y tế được thu thập để điều trị — không phải để huấn luyện mô hình dự đoán tái nhập viện. Câu trả lời khảo sát được thu thập để phản hồi sản phẩm — không phải để huấn luyện bộ phân loại cảm xúc.

Để dùng những hồ sơ đó cho huấn luyện ML, nhóm cần một trong ba thứ:

Sự đồng ý rõ ràng từ mỗi người cho mục đích ML — khó có được, thường không thể hồi tố
Đánh giá lợi ích hợp pháp cho thấy mục đích ML là tương thích — không chắc về mặt pháp lý, phụ thuộc vào DPA
Ẩn danh hóa — thay thế hoặc xóa thông tin cá nhân để bộ dữ liệu không còn là dữ liệu cá nhân theo GDPR

Ẩn danh hóa đúng cách mang lại sự chắc chắn pháp lý cao nhất. Thách thức là làm đúng mỗi lần.

Vấn Đề Với Script Tự Viết

Các nhóm viết script Python mới cho từng bộ dữ liệu tạo ra các vấn đề tích lũy.

Phạm vi phủ không đầy đủ. Một script được xây dựng cho một schema sẽ bỏ sót các trường mới. Một cột ghi chú lâm sàng được thêm vào sáu tháng trước? Không có trong regex. Trường tên đệm? Script chỉ xử lý họ và tên.

Không nhất quán. Bộ dữ liệu A được xử lý bằng script_v1. Bộ dữ liệu B dùng script_v3. Bộ dữ liệu C được xử lý bởi thành viên nhóm khác. Bộ dữ liệu huấn luyện gộp lại có ba phương pháp khác nhau được áp dụng. DPO không thể chứng nhận điều đó.

Không có dấu vết kiểm toán. Script đã chạy. Nó thay đổi gì? Các thực thể nào được tìm thấy? Không có bản ghi xử lý, việc tuân thủ là không thể. Khi kiểm toán viên DPA hỏi "làm sao bạn biết bộ dữ liệu huấn luyện này sạch?", câu trả lời "chúng tôi đã chạy script Python" là không đủ.

Lỗi thời mô hình. Các mẫu regex hoạt động năm 2023 bỏ sót các định dạng định danh mới từ 2024. Script không tự cập nhật.

Hướng Dẫn Xử Lý Hàng Loạt

Một nhóm AI y tế cần ẩn danh hóa 8.000 hồ sơ bệnh nhân. Nhóm tại Mỹ cần truy cập từ văn phòng EU. Schrems II áp dụng — hồ sơ có nguồn gốc EU không thể đến cơ sở hạ tầng Mỹ mà không có các biện pháp bảo vệ phù hợp.

Con đường truyền thống: Kỹ sư dữ liệu viết script tùy chỉnh. Hai đến ba ngày phát triển. Một đến hai ngày xem xét DPO. Một ngày lặp lại. Tổng cộng: bốn đến sáu ngày. Dự án ML bị trì hoãn.

Con đường xử lý hàng loạt:

Xuất 8.000 hồ sơ dưới dạng CSV
Tải lên để xử lý hàng loạt
Đặt loại thực thể: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Chọn phương pháp: Thay thế (thay thế các giá trị tổng hợp thực tế để bảo toàn cấu trúc)
Xử lý: 45 phút cho 8.000 hồ sơ
Tải xuống CSV sạch
DPO xem xét metadata xử lý — số lượng thực thể mỗi hồ sơ, phương pháp áp dụng: 2 tiếng
DPO phê duyệt. Chuyển tiếp.

Tổng thời gian: 45 phút cộng 2 tiếng xem xét DPO. Thay vì bốn đến sáu ngày.

Xem hướng dẫn dữ liệu huấn luyện EU AI Act để biết cách các bước tương tự đáp ứng nghĩa vụ Điều 10.

Thay Thế vs. Xóa cho Mục Đích ML

Phương pháp ẩn danh hóa quan trọng đối với chất lượng mô hình.

Xóa thay thế PII bằng token như [REDACTED]. Cách này phù hợp cho mô hình phát hiện PII. Với các tác vụ khác — phân tích cảm xúc, phân loại, gợi ý — nó gây hại. Mô hình học rằng [REDACTED] là token đặc biệt. Nó không thể học từ phân phối tự nhiên của tên và giá trị.

Thay thế hoán đổi "Nguyễn Văn An" thành "Trần Thị Bình." Nó hoán đổi "nguyenvanan@company.com" thành "tranthib@synthetic.com." Cấu trúc được giữ nguyên. Vị trí thực thể, mẫu đồng xuất hiện, luồng câu — tất cả được bảo toàn. Mô hình học từ ngữ cảnh thực tế.

Đối với bộ dữ liệu huấn luyện ML, Thay thế là lựa chọn đúng. Mô hình không học các giá trị giả. Nó học các mẫu xung quanh chúng. Đó là điều quan trọng.

Schrems II và Chuyển Dữ Liệu Xuyên Biên Giới

Phán quyết Schrems II (CJEU, 2020) vô hiệu hóa EU-US Privacy Shield. Hồ sơ có nguồn gốc EU không thể đến cơ sở hạ tầng ML tại Mỹ — AWS US-East, GCP US-Central — mà không có các biện pháp bảo vệ chuyển dữ liệu phù hợp.

Ba biện pháp bảo vệ chính là:

Điều khoản Hợp đồng Tiêu chuẩn kèm Đánh giá Tác động Chuyển dữ liệu
Quy tắc Doanh nghiệp Ràng buộc cho chuyển dữ liệu trong nội bộ tập đoàn
Ngoại lệ cho hồ sơ đã ẩn danh hóa — các tệp được ẩn danh hóa đúng cách không còn là dữ liệu cá nhân theo GDPR và được miễn quy tắc chuyển dữ liệu

Đối với các nhóm dùng cơ sở hạ tầng Mỹ với bộ dữ liệu có nguồn gốc EU, ẩn danh hóa đúng cách loại bỏ vấn đề Schrems II. Bộ dữ liệu sạch không phải là dữ liệu cá nhân. Nó có thể di chuyển tự do.

Đây là một trong những lợi ích thực tế mạnh nhất của ẩn danh hóa hàng loạt. Nó không chỉ đáp ứng GDPR. Nó loại bỏ hoàn toàn rào cản xuyên biên giới.

Để biết thêm về hạn chế chuyển dữ liệu, xem hướng dẫn giới hạn mục đích GDPR.

Những Gì Cần Gửi cho DPO

Khi nộp bộ dữ liệu huấn luyện sạch để DPO phê duyệt, hãy bao gồm năm nội dung sau:

Mô tả nguồn. Bộ dữ liệu gốc là gì? Mục đích thu thập là gì? Nó chứa các danh mục cá nhân nào?
Cấu hình ẩn danh hóa. Loại thực thể nào được phát hiện và thay thế? Phương pháp nào được áp dụng?
Metadata xử lý. Số lượng thực thể mỗi hồ sơ, điểm tin cậy, tổng số hồ sơ được xử lý.
Đánh giá rủi ro còn lại. Khả năng bất kỳ cá nhân nào bị tái nhận dạng là bao nhiêu? Đối với ẩn danh hóa phương pháp Thay thế với 285+ loại thực thể trên văn bản có cấu trúc, xác suất này rất thấp.
Mục đích sử dụng dự định. Mô hình nào sẽ được huấn luyện? Mục đích huấn luyện là gì?

Xử lý hàng loạt cung cấp tự động các mục 2 và 3. Các mục 1, 4 và 5 đến từ nhà khoa học dữ liệu.

Xem API batch của anonym.legal để biết cách metadata xử lý được trả về với mỗi công việc.

Những Gì Bạn Đạt Được

Bộ dữ liệu ML tuân thủ GDPR hoàn toàn có thể đạt được mà không cần script tùy chỉnh, không cần độ trễ nhiều ngày, và không mất chất lượng mô hình.

Phương pháp Thay thế giữ các thuộc tính ngôn ngữ tự nhiên quan trọng cho huấn luyện NLP. Nó loại bỏ các chi tiết cá nhân tạo ra rủi ro GDPR.

45 phút xử lý hàng loạt là sự khác biệt giữa một đợt xem xét tuân thủ bị trì hoãn và một lần phê duyệt DPO suôn sẻ.

Nguồn Tài Liệu

Các Bài viết Liên quan

Kỹ Thuật

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

Bắt đầu Dùng Thử Miễn Phí Xem Tính Năng

Ẩn danh hóa dữ liệu huấn luyện ML tuân thủ GDPR

Một Script Là Chưa Đủ

Vấn Đề Với Script Tự Viết

Hướng Dẫn Xử Lý Hàng Loạt

Thay Thế vs. Xóa cho Mục Đích ML

Schrems II và Chuyển Dữ Liệu Xuyên Biên Giới

Những Gì Cần Gửi cho DPO

Những Gì Bạn Đạt Được

Nguồn Tài Liệu

Các Bài viết Liên quan

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Sẵn sàng bảo vệ dữ liệu của bạn?

Ẩn danh hóa dữ liệu huấn luyện ML tuân thủ GDPR

Một Script Là Chưa Đủ

Tại Sao GDPR Giới Hạn Sử Dụng Dữ Liệu Huấn Luyện ML

Vấn Đề Với Script Tự Viết

Hướng Dẫn Xử Lý Hàng Loạt

Thay Thế vs. Xóa cho Mục Đích ML

Schrems II và Chuyển Dữ Liệu Xuyên Biên Giới

Những Gì Cần Gửi cho DPO

Những Gì Bạn Đạt Được

Nguồn Tài Liệu

Các Bài viết Liên quan

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Sẵn sàng bảo vệ dữ liệu của bạn?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow