Công cụ PII chỉ tiếng Anh: Khoảng trống GDPR
GDPR không có sở thích ngôn ngữ
GDPR áp dụng cho dữ liệu cá nhân ở bất kỳ ngôn ngữ nào. Tiếng Đức, tiếng Pháp, tiếng Ba Lan, tiếng Thụy Điển — tất cả đều được bao phủ như nhau. Một Steuer-ID bị bỏ sót tạo ra rủi ro pháp lý tương tự như một số an sinh xã hội bị bỏ sót. Luật không phân biệt ngôn ngữ.
Hầu hết các công cụ phát hiện PII thì có.
Các công cụ thương mại và mã nguồn mở hàng đầu được xây dựng cho văn bản tiếng Anh. Các bộ phát hiện thực thể của chúng phản ánh điều này. Chúng bao phủ tốt số an sinh xã hội Mỹ, bằng lái xe Mỹ và định dạng điện thoại NANP. Các bộ phát hiện cho số nhận dạng quốc gia không phải tiếng Anh kém chính xác hơn. Chúng được bảo trì ít hơn. Chúng bỏ sót các số nhận dạng thực tế thường xuyên hơn.
Đối với các công ty hoạt động khắp các quốc gia thành viên EU, điều này tạo ra khoảng trống về phạm vi bao phủ. Công cụ báo cáo rằng việc phát hiện đã hoàn tất. Nhưng các số nhận dạng không phải tiếng Anh vẫn còn trong dữ liệu. Đây thường là các số nhận dạng có mức độ phơi nhiễm GDPR lớn nhất ở một số quốc gia nhất định.
Các cơ quan quản lý dữ liệu nhìn thấy điều này. Kiểm toán viên tìm kiếm điều này. Một công cụ có thể hoạt động tốt trên hồ sơ tiếng Anh. Nhưng nếu nó thất bại trên hồ sơ tiếng Đức hoặc tiếng Pháp, nó không tuân thủ. Một báo cáo sạch không thay đổi điều đó.
Số nhận dạng quốc gia khác nhau về cấu trúc
Sự khác biệt giữa công cụ tập trung vào tiếng Anh và công cụ đa ngôn ngữ không chỉ là thêm nhiều mẫu regex hơn. Các số nhận dạng quốc gia EU khác nhau đáng kể. Chúng yêu cầu logic dành riêng cho từng quốc gia để phát hiện chính xác.
Steuer-Identifikationsnummer của Đức (Steuer-ID): 11 chữ số. Sử dụng tổng kiểm tra dựa trên biến thể thuật toán Luhn. Mẫu SSN chung sẽ không nhận ra nó. Mẫu cho bất kỳ số 11 chữ số nào tạo ra quá nhiều kết quả dương tính giả trong tài liệu tiếng Đức.
NIR của Pháp (Numéro d'inscription au répertoire): 15 chữ số. Định dạng mã hóa giới tính, năm và tháng sinh, và département. Cũng bao gồm số thứ tự và khóa kiểm tra 2 chữ số. Phát hiện chính xác yêu cầu xác minh khóa kiểm tra.
Personnummer của Thụy Điển: 10 chữ số với chữ số kiểm tra Luhn. Những người sinh trước năm 1990 sử dụng dấu phân cách + thay vì -. Điều này thay đổi định dạng cần được phát hiện.
PESEL của Ba Lan: 11 chữ số. Mã hóa ngày sinh, giới tính và chữ số kiểm tra dựa trên tổng trọng số. Phát hiện chính xác yêu cầu cả khớp định dạng lẫn xác minh tổng kiểm tra.
Đây không phải là các biến thể của một mẫu chung. Mỗi cái có độ dài khác nhau. Mỗi cái sử dụng phương pháp kiểm tra khác nhau. Mỗi cái mã hóa dữ liệu trong sơ đồ vị trí khác nhau. Mô hình NER được huấn luyện bằng tiếng Anh khi nhìn thấy NIR tiếng Pháp sẽ không nhận ra nó là số nhận dạng quốc gia. Nó bỏ qua hoặc phân loại sai.
Rủi ro tuân thủ thực tế
Hãy tưởng tượng một quản lý tuân thủ tại BPO châu Âu. Họ xử lý dữ liệu từ Đức, Pháp, Ba Lan và Hà Lan cùng một lúc. Công cụ của họ báo cáo ẩn danh hóa PII thành công.
Nhưng kết quả không đầy đủ. Steuer-ID trong hồ sơ tiếng Đức vẫn còn. Số NIR trong hồ sơ tiếng Pháp vẫn còn. Số PESEL trong hồ sơ tiếng Ba Lan vẫn còn. Các bộ phát hiện của công cụ thiếu hoặc không đủ chính xác cho các định dạng này.
Sau đó chuyển tập dữ liệu vào phân tích hoặc cho đối tác nghiên cứu để lại dữ liệu vẫn chứa các số nhận dạng quốc gia có thể tái nhận dạng. Vấn đề GDPR sẽ không xuất hiện trong nhật ký công cụ. Nó xuất hiện khi có yêu cầu truy cập dữ liệu. Có thể xuất hiện trong kiểm toán của cơ quan quản lý dữ liệu. Có thể xuất hiện sau khi vi phạm dữ liệu.
Nghiên cứu so sánh các phương pháp đa ngôn ngữ kết hợp với các công cụ tập trung vào tiếng Anh cho kết quả rõ ràng. Các phương pháp kết hợp đạt điểm F1 từ 0,60 đến 0,83 trên các ngôn ngữ EU. Các công cụ chỉ tiếng Anh đạt điểm gần bằng không cho các định dạng số nhận dạng quốc gia không phải tiếng Anh.
Xem tổng quan tuân thủ GDPR để biết các khoảng trống này ánh xạ đến các nghĩa vụ GDPR như thế nào.
Những gì phạm vi bao phủ đầy đủ yêu cầu
Phát hiện PII đa ngôn ngữ thực sự cho tuân thủ GDPR EU yêu cầu ba lớp.
Mô hình spaCy gốc ngôn ngữ cung cấp hiểu biết ngữ nghĩa theo ngôn ngữ của văn bản. Mô hình được huấn luyện trên văn bản tiếng Đức biết "Müller" là họ phổ biến của Đức. Các mô hình tồn tại cho 25 ngôn ngữ EU có tài nguyên cao.
Mô hình Stanza NLP mở rộng phạm vi bao phủ cho các ngôn ngữ không có trong spaCy. Thêm phạm vi tiếp cận cho nhiều cộng đồng ngôn ngữ EU hơn.
Mô hình transformer đa ngôn ngữ (XLM-RoBERTa) xử lý các trường hợp xuyên ngôn ngữ. Một tên trong câu tiếng Pháp được nhận ra là tên riêng. Điều này hoạt động ngay cả khi mô hình không được huấn luyện trên tên cụ thể đó.
Regex với xác thực theo từng quốc gia bao phủ các số nhận dạng quốc gia có cấu trúc. Steuer-ID, NIR, PESEL và Personnummer mỗi cái cần logic tổng kiểm tra riêng. Điều này làm giảm kết quả dương tính giả. Các chuỗi số không vượt qua quy tắc xác thực của quốc gia được lọc ra.
Khoảng trống mang tính cấu trúc. Thêm từ điển hoặc nhiều mẫu regex hơn chỉ mang lại cải thiện nhỏ. Cách tiếp cận duy nhất đáng tin cậy là tích hợp phạm vi bao phủ số nhận dạng EU từ đầu.
Kiểm tra công cụ hiện tại của bạn
Hỏi nhà cung cấp của bạn về điểm F1 cho hồ sơ tiếng Đức, tiếng Pháp, tiếng Ba Lan và tiếng Hà Lan. "Hỗ trợ đa ngôn ngữ" thường có nghĩa là công cụ áp dụng dịch máy trước. Đó không phải là quét gốc. Tuân thủ GDPR yêu cầu quét gốc.
Kiểm tra với các mẫu số nhận dạng quốc gia thực tế. Xây dựng một tập kiểm tra ngắn với 10 ví dụ của mỗi loại ID trong hoạt động của bạn. Steuer-ID, NIR, PESEL, Personnummer. Kiểm tra tỷ lệ phát hiện. Nhanh hơn một bài kiểm tra F1 đầy đủ và nhanh chóng phát hiện khoảng trống.
Xem trang bảo mật và tuân thủ để biết anonym.legal giải quyết các yêu cầu này như thế nào. Xem tài liệu tham khảo các loại thực thể để biết định nghĩa các loại thực thể.