Phát hiện PII đa ngôn ngữ cho GDPR
Cập nhật cho năm 2026
Khoảng cách GDPR ẩn
GDPR không có sở thích ngôn ngữ. Điều 4(1) định nghĩa "dữ liệu cá nhân" mà không đặt tên ngôn ngữ xuất hiện trong đó. Steuer-ID của Đức được bảo vệ như Số An sinh xã hội của Mỹ. NIR của Pháp được quản lý như số Bảo hiểm quốc gia Anh.
Hầu hết các công cụ phát hiện PII được xây dựng chỉ cho tiếng Anh.
Nghiên cứu từ ACL 2024 cho thấy các công cụ NLP lai đạt điểm F1 từ 0,60 đến 0,83 cho các địa phương châu Âu. Các công cụ chỉ tiếng Anh gần bằng không đối với các định dạng ID quốc gia không phải tiếng Anh. Khoảng cách rõ ràng. Một công cụ có thể bắt được 95% PII tiếng Anh. Nhưng nó bỏ sót 40–60% PII tiếng Đức, Pháp, Ba Lan hoặc Hà Lan trong cùng một tệp. Đó là vấn đề nghiêm trọng. Nó để lộ các công ty.
Đây là khoảng cách GDPR thực sự. Nó ảnh hưởng đến gần mọi công ty toàn cầu sử dụng các công cụ biên tập tập trung vào tiếng Anh. Xem hướng dẫn GDPR của chúng tôi để biết thêm.
Tại sao PII theo vùng cụ thể
Phát hiện PII có hai phần.
Phần đầu tiên là quét dựa trên mẫu. Điều này bao gồm các ID có cấu trúc như số thuế và định dạng điện thoại.
Phần thứ hai là quét dựa trên NER. Điều này bao gồm các thực thể theo ngữ cảnh như tên và địa chỉ.
Cả hai phần đều phụ thuộc vào vùng.
ID có cấu trúc khác nhau theo quốc gia
| Quốc gia | ID thuế | Định dạng | Xác nhận |
|---|---|---|---|
| Đức | Steuer-ID | 11 chữ số | Modulo-11 |
| Pháp | NIR | 15 chữ số + khóa 2 chữ số | INSEE |
| Thụy Điển | Personnummer | 10 chữ số | Luhn |
| Ba Lan | PESEL | 11 chữ số | Modulo-10 |
| Hà Lan | BSN | 9 chữ số | Elfproef |
| Tây Ban Nha | DNI/NIE | 8 chữ số + chữ cái | Modulo-23 |
| Ý | Codice Fiscale | 16 ký tự | Tổng kiểm tra tùy chỉnh |
Regex chỉ tiếng Anh cho SSN (NNN-NN-NNNN) sẽ không khớp bất kỳ định dạng nào trong số này. Mỗi cái cần regex riêng của mình. Mỗi cái cũng cần logic tổng kiểm tra riêng.
NER cần mô hình bản địa
Tên tiếng Đức khác với tên tiếng Anh. "Hans-Dieter Müller" rõ ràng với mô hình bản địa tiếng Đức. Mô hình được đào tạo trên tiếng Anh thường bỏ sót những tên như vậy.
Kết quả dương tính giả cũng là vấn đề. Trình theo dõi vấn đề Microsoft Presidio cho thấy các từ tiếng Đức bị phân loại nhầm thành PII tiếng Anh. Từ "Null" (tiếng Đức có nghĩa là "không") là một ví dụ. Nó kích hoạt kết quả dương tính giả trong các mô hình được đào tạo trên tiếng Anh. Trong sử dụng sản xuất, tỷ lệ lỗi tăng lên 3 kết quả dương tính giả trên mỗi thực thể thực (Alvaro và cộng sự, 2024).
Rủi ro quy định
Các cơ quan dữ liệu EU nhận thức được vấn đề này. Một số DPA quốc gia đã ban hành hướng dẫn.
BfDI Đức: GDPR Điều 5(1)(f) áp dụng cho tất cả hồ sơ. Nó bao gồm dữ liệu không phải tiếng Anh được xử lý bởi các công cụ bên thứ ba.
CNIL Pháp: Báo cáo thường niên CNIL 2024 đã nêu ra lo ngại. Nó đã gắn cờ các công cụ AI xử lý hồ sơ tiếng Pháp mà không có quét PII theo địa phương tiếng Pháp.
Các DPA EU nói chung: GDPR Điều 25 (Bảo vệ quyền riêng tư theo thiết kế) yêu cầu các biện pháp bảo vệ phù hợp với hồ sơ thực tế đang được xử lý. Điều này bao gồm PII không phải tiếng Anh trong các triển khai toàn cầu.
Rủi ro rõ ràng. Một công ty có thể hiển thị phát hiện PII 95% trên nội dung tiếng Anh trong kiểm toán GDPR. Nhưng nếu nó cũng xử lý hồ sơ tiếng Đức, Pháp và Ba Lan với cùng công cụ, khoảng cách sẽ xuất hiện. Kiểm toán viên chú ý. Phạt tiền có thể theo sau. Xem trang bảo vệ của chúng tôi về cách chúng tôi giải quyết vấn đề này.
Thiết kế ba tầng
Nghiên cứu và sử dụng sản xuất đồng ý về thiết kế lai ba tầng là cách tiếp cận tốt nhất.
Tầng 1: Mô hình spaCy bản địa
spaCy cung cấp các mô hình được đào tạo cho 25 địa phương. Bao gồm tiếng Đức, Pháp, Tây Ban Nha, Bồ Đào Nha, Ý, Hà Lan, Nga, Trung, Nhật, Hàn và Ba Lan. Mỗi mô hình được đào tạo trên văn bản bản địa. Họ học cú pháp và mẫu thực thể của từng địa phương. Điều này quan trọng. Đào tạo bản địa có nghĩa là độ hồi phục tốt hơn và ít kết quả dương tính giả hơn.
Đối với tiếng Đức: de_core_news_lg xử lý danh từ ghép và các mẫu tên tiếng Đức.
Đối với tiếng Pháp: fr_core_news_lg xử lý các thực thể tiếng Pháp, chức danh, địa danh và tổ chức.
Các mô hình bản địa vượt trội hơn các mô hình xuyên ngôn ngữ để quét tên trên các địa phương tài nguyên cao.
Tầng 2: Stanza cho nhiều địa phương hơn
Thư viện Stanza của Stanford bao phủ các địa phương không có trong spaCy. Bao gồm tiếng Croatia, Slovenia và Ukraine. Điều này mở rộng phạm vi cho các nhóm ngôn ngữ EU mà spaCy không phục vụ. Stanza miễn phí và mã nguồn mở. Nó tích hợp tốt với phần còn lại của ngăn xếp.
Tầng 3: XLM-RoBERTa cho phạm vi rộng
Đối với các địa phương nơi spaCy và Stanza thiếu mô hình NER, XLM-RoBERTa lấp đầy khoảng cách. Nó được đào tạo trên văn bản Common Crawl trên 100 địa phương. Nó đạt 91,4% F1 xuyên ngôn ngữ cho phát hiện PII (HuggingFace 2024). Nó xử lý chuyển đổi ngôn ngữ tốt. Đó là tính năng chính. Nó quan trọng khi một tài liệu chứa văn bản bằng nhiều địa phương cùng một lúc.
Truy cập tài liệu hệ thống token của chúng tôi để xem cách các cuộc gọi API mở rộng quy mô với khối lượng đa ngôn ngữ.
Loại thực thể theo vùng cụ thể
Các mô hình một mình là không đủ. Tuân thủ GDPR cũng yêu cầu phạm vi loại thực thể cho ID quốc gia cụ thể.
ID quốc gia EU theo quốc gia:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Định dạng điện thoại: Mỗi quốc gia EU có cấu trúc tiền tố riêng. +49, +33 và +48 mỗi cái cần logic xác nhận riêng.
Định dạng địa chỉ: Mã bưu chính khác nhau rộng rãi. PLZ của Đức sử dụng 5 chữ số. Mã của Pháp sử dụng 5 chữ số (phạm vi 01–99). Mã bưu chính Anh là chữ số-số. Mã của Tây Ban Nha sử dụng 5 chữ số (01000–52999).
Trường hợp thực tế: Dược phẩm Thụy Sĩ
Một công ty Thụy Sĩ xử lý hợp đồng lao động. Mỗi hợp đồng pha trộn văn bản tiếng Đức, Pháp và Anh. Thụy Sĩ có bốn ngôn ngữ chính thức. Công cụ của họ được thiết lập chỉ cho tiếng Đức. Nó bỏ sót tất cả PII phần tiếng Pháp.
Một hợp đồng cho nhân viên trụ sở tại Geneva bao gồm số AVS tiếng Pháp (13 chữ số), IBAN ngân hàng Thụy Sĩ và tên theo định dạng tiếng Pháp. Công cụ chỉ tiếng Đức bỏ sót tên định dạng tiếng Pháp. Nó không tìm thấy số AVS định dạng tiếng Pháp. Nó chỉ phát hiện một phần IBAN.
Cách tiếp cận ba tầng xử lý toàn bộ tài liệu. Nó phát hiện địa phương theo đoạn văn bản. Nó áp dụng mô hình NER phù hợp cho từng phần. Nó xác nhận từng ID quốc gia với logic quốc gia đúng.
Tài liệu đa địa phương
Trường hợp khó nhất là pha trộn địa phương trong tài liệu. Ví dụ:
- Hợp đồng tiếng Anh của công ty Đức với hồ sơ nhân viên tiếng Đức (tên, ID thuế)
- Mẫu đồng ý GDPR tiếng Pháp với đoạn trích quyền riêng tư tiếng Anh
- Cuộc trò chuyện nơi đại lý trả lời bằng tiếng Anh và khách hàng viết bằng tiếng Ả Rập
XLM-RoBERTa xử lý điều này một cách tự nhiên. Nó không cần gắn cờ địa phương rõ ràng. Nó xử lý văn bản đa địa phương mà không cần phân đoạn trước. Điều này tiết kiệm thời gian. Nó cũng tránh lỗi từ việc tách không chính xác.
Đối với sử dụng sản xuất, việc kết hợp tự động phát hiện địa phương (ở cấp độ câu) với suy luận XLM-RoBERTa cho phép xử lý mạnh mẽ tài liệu đa địa phương.
Các bước thực tế
Kiểm toán phạm vi của công cụ. Hỏi nhà cung cấp biên tập của bạn điểm F1 cho các địa phương cụ thể của bạn. "Hỗ trợ 20 ngôn ngữ" thường có nghĩa là công cụ định tuyến văn bản qua dịch máy trước. Đó không phải là quét bản địa.
Lập bản đồ hồ sơ của bạn theo địa phương. Thực hiện kiểm kê hồ sơ bao gồm phân phối địa phương. Một công ty toàn cầu với 70% tiếng Anh, 20% tiếng Đức và 10% tiếng Pháp đối mặt với rủi ro khác nhau. Một công ty với 95% tiếng Anh ở vị trí khác.
Kiểm tra với mẫu ID quốc gia. Xây dựng bộ kiểm tra với 10 ví dụ về ID quốc gia trong hoạt động của bạn — Steuer-ID, NIR, PESEL, BSN và các ID khác. Xác minh tỷ lệ phát hiện. Điều này nhanh hơn so với kiểm tra F1 đầy đủ.
Xem xét DPIA của bạn. Kiểm tra xem phạm vi địa phương có được bao gồm không. DPIA không đầy đủ giả định hồ sơ chỉ tiếng Anh có thể cần cập nhật. Hành động ngay bây giờ. Đừng chờ đợi kiểm toán để tìm khoảng cách.
Để biết định nghĩa loại thực thể đầy đủ, xem tham chiếu thực thể và FAQ. Để biết gói và tỷ lệ cuộc gọi API, truy cập bảng giá.
Công cụ phát hiện PII của anonym.legal sử dụng cách tiếp cận đa ngôn ngữ ba tầng. Nó bao phủ 25 địa phương tài nguyên cao qua mô hình spaCy bản địa. Stanza thêm phạm vi địa phương bổ sung. Transformer xuyên ngôn ngữ XLM-RoBERTa mở rộng phạm vi đến 48 địa phương. Các loại thực thể quốc gia cụ thể cho tất cả các quốc gia thành viên EU được bao gồm.
Nguồn tham khảo
- ACL 2024: Phát hiện PII lai cho các địa phương châu Âu
- Khung chú thích PII đa ngôn ngữ có thể mở rộng (arXiv 2025)
- Điểm chuẩn NER xuyên ngôn ngữ HuggingFace XLM-RoBERTa
- Microsoft Presidio GitHub Issue #1071 — Kết quả dương tính giả tiếng Đức
- Hướng dẫn EDPB về Điều 25 Bảo vệ quyền riêng tư theo thiết kế
- Báo cáo thường niên CNIL 2024