By · Last updated 2026-03-03

Quay lại BlogGDPR & Tuân Thủ

Phát hiện PII đa ngôn ngữ cho GDPR

Steuer-ID của Đức, NIR của Pháp và Personnummer của Thụy Điển đều yêu cầu logic phát hiện khác nhau.

March 3, 202610 phút đọc
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Phát hiện PII đa ngôn ngữ cho GDPR

Cập nhật cho năm 2026

Khoảng cách GDPR ẩn

GDPR không có sở thích ngôn ngữ. Điều 4(1) định nghĩa "dữ liệu cá nhân" mà không đặt tên ngôn ngữ xuất hiện trong đó. Steuer-ID của Đức được bảo vệ như Số An sinh xã hội của Mỹ. NIR của Pháp được quản lý như số Bảo hiểm quốc gia Anh.

Hầu hết các công cụ phát hiện PII được xây dựng chỉ cho tiếng Anh.

Nghiên cứu từ ACL 2024 cho thấy các công cụ NLP lai đạt điểm F1 từ 0,60 đến 0,83 cho các địa phương châu Âu. Các công cụ chỉ tiếng Anh gần bằng không đối với các định dạng ID quốc gia không phải tiếng Anh. Khoảng cách rõ ràng. Một công cụ có thể bắt được 95% PII tiếng Anh. Nhưng nó bỏ sót 40–60% PII tiếng Đức, Pháp, Ba Lan hoặc Hà Lan trong cùng một tệp. Đó là vấn đề nghiêm trọng. Nó để lộ các công ty.

Đây là khoảng cách GDPR thực sự. Nó ảnh hưởng đến gần mọi công ty toàn cầu sử dụng các công cụ biên tập tập trung vào tiếng Anh. Xem hướng dẫn GDPR của chúng tôi để biết thêm.

Tại sao PII theo vùng cụ thể

Phát hiện PII có hai phần.

Phần đầu tiên là quét dựa trên mẫu. Điều này bao gồm các ID có cấu trúc như số thuế và định dạng điện thoại.

Phần thứ hai là quét dựa trên NER. Điều này bao gồm các thực thể theo ngữ cảnh như tên và địa chỉ.

Cả hai phần đều phụ thuộc vào vùng.

ID có cấu trúc khác nhau theo quốc gia

Quốc giaID thuếĐịnh dạngXác nhận
ĐứcSteuer-ID11 chữ sốModulo-11
PhápNIR15 chữ số + khóa 2 chữ sốINSEE
Thụy ĐiểnPersonnummer10 chữ sốLuhn
Ba LanPESEL11 chữ sốModulo-10
Hà LanBSN9 chữ sốElfproef
Tây Ban NhaDNI/NIE8 chữ số + chữ cáiModulo-23
ÝCodice Fiscale16 ký tựTổng kiểm tra tùy chỉnh

Regex chỉ tiếng Anh cho SSN (NNN-NN-NNNN) sẽ không khớp bất kỳ định dạng nào trong số này. Mỗi cái cần regex riêng của mình. Mỗi cái cũng cần logic tổng kiểm tra riêng.

NER cần mô hình bản địa

Tên tiếng Đức khác với tên tiếng Anh. "Hans-Dieter Müller" rõ ràng với mô hình bản địa tiếng Đức. Mô hình được đào tạo trên tiếng Anh thường bỏ sót những tên như vậy.

Kết quả dương tính giả cũng là vấn đề. Trình theo dõi vấn đề Microsoft Presidio cho thấy các từ tiếng Đức bị phân loại nhầm thành PII tiếng Anh. Từ "Null" (tiếng Đức có nghĩa là "không") là một ví dụ. Nó kích hoạt kết quả dương tính giả trong các mô hình được đào tạo trên tiếng Anh. Trong sử dụng sản xuất, tỷ lệ lỗi tăng lên 3 kết quả dương tính giả trên mỗi thực thể thực (Alvaro và cộng sự, 2024).

Rủi ro quy định

Các cơ quan dữ liệu EU nhận thức được vấn đề này. Một số DPA quốc gia đã ban hành hướng dẫn.

BfDI Đức: GDPR Điều 5(1)(f) áp dụng cho tất cả hồ sơ. Nó bao gồm dữ liệu không phải tiếng Anh được xử lý bởi các công cụ bên thứ ba.

CNIL Pháp: Báo cáo thường niên CNIL 2024 đã nêu ra lo ngại. Nó đã gắn cờ các công cụ AI xử lý hồ sơ tiếng Pháp mà không có quét PII theo địa phương tiếng Pháp.

Các DPA EU nói chung: GDPR Điều 25 (Bảo vệ quyền riêng tư theo thiết kế) yêu cầu các biện pháp bảo vệ phù hợp với hồ sơ thực tế đang được xử lý. Điều này bao gồm PII không phải tiếng Anh trong các triển khai toàn cầu.

Rủi ro rõ ràng. Một công ty có thể hiển thị phát hiện PII 95% trên nội dung tiếng Anh trong kiểm toán GDPR. Nhưng nếu nó cũng xử lý hồ sơ tiếng Đức, Pháp và Ba Lan với cùng công cụ, khoảng cách sẽ xuất hiện. Kiểm toán viên chú ý. Phạt tiền có thể theo sau. Xem trang bảo vệ của chúng tôi về cách chúng tôi giải quyết vấn đề này.

Thiết kế ba tầng

Nghiên cứu và sử dụng sản xuất đồng ý về thiết kế lai ba tầng là cách tiếp cận tốt nhất.

Tầng 1: Mô hình spaCy bản địa

spaCy cung cấp các mô hình được đào tạo cho 25 địa phương. Bao gồm tiếng Đức, Pháp, Tây Ban Nha, Bồ Đào Nha, Ý, Hà Lan, Nga, Trung, Nhật, Hàn và Ba Lan. Mỗi mô hình được đào tạo trên văn bản bản địa. Họ học cú pháp và mẫu thực thể của từng địa phương. Điều này quan trọng. Đào tạo bản địa có nghĩa là độ hồi phục tốt hơn và ít kết quả dương tính giả hơn.

Đối với tiếng Đức: de_core_news_lg xử lý danh từ ghép và các mẫu tên tiếng Đức. Đối với tiếng Pháp: fr_core_news_lg xử lý các thực thể tiếng Pháp, chức danh, địa danh và tổ chức.

Các mô hình bản địa vượt trội hơn các mô hình xuyên ngôn ngữ để quét tên trên các địa phương tài nguyên cao.

Tầng 2: Stanza cho nhiều địa phương hơn

Thư viện Stanza của Stanford bao phủ các địa phương không có trong spaCy. Bao gồm tiếng Croatia, Slovenia và Ukraine. Điều này mở rộng phạm vi cho các nhóm ngôn ngữ EU mà spaCy không phục vụ. Stanza miễn phí và mã nguồn mở. Nó tích hợp tốt với phần còn lại của ngăn xếp.

Tầng 3: XLM-RoBERTa cho phạm vi rộng

Đối với các địa phương nơi spaCy và Stanza thiếu mô hình NER, XLM-RoBERTa lấp đầy khoảng cách. Nó được đào tạo trên văn bản Common Crawl trên 100 địa phương. Nó đạt 91,4% F1 xuyên ngôn ngữ cho phát hiện PII (HuggingFace 2024). Nó xử lý chuyển đổi ngôn ngữ tốt. Đó là tính năng chính. Nó quan trọng khi một tài liệu chứa văn bản bằng nhiều địa phương cùng một lúc.

Truy cập tài liệu hệ thống token của chúng tôi để xem cách các cuộc gọi API mở rộng quy mô với khối lượng đa ngôn ngữ.

Loại thực thể theo vùng cụ thể

Các mô hình một mình là không đủ. Tuân thủ GDPR cũng yêu cầu phạm vi loại thực thể cho ID quốc gia cụ thể.

ID quốc gia EU theo quốc gia:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Định dạng điện thoại: Mỗi quốc gia EU có cấu trúc tiền tố riêng. +49, +33 và +48 mỗi cái cần logic xác nhận riêng.

Định dạng địa chỉ: Mã bưu chính khác nhau rộng rãi. PLZ của Đức sử dụng 5 chữ số. Mã của Pháp sử dụng 5 chữ số (phạm vi 01–99). Mã bưu chính Anh là chữ số-số. Mã của Tây Ban Nha sử dụng 5 chữ số (01000–52999).

Trường hợp thực tế: Dược phẩm Thụy Sĩ

Một công ty Thụy Sĩ xử lý hợp đồng lao động. Mỗi hợp đồng pha trộn văn bản tiếng Đức, Pháp và Anh. Thụy Sĩ có bốn ngôn ngữ chính thức. Công cụ của họ được thiết lập chỉ cho tiếng Đức. Nó bỏ sót tất cả PII phần tiếng Pháp.

Một hợp đồng cho nhân viên trụ sở tại Geneva bao gồm số AVS tiếng Pháp (13 chữ số), IBAN ngân hàng Thụy Sĩ và tên theo định dạng tiếng Pháp. Công cụ chỉ tiếng Đức bỏ sót tên định dạng tiếng Pháp. Nó không tìm thấy số AVS định dạng tiếng Pháp. Nó chỉ phát hiện một phần IBAN.

Cách tiếp cận ba tầng xử lý toàn bộ tài liệu. Nó phát hiện địa phương theo đoạn văn bản. Nó áp dụng mô hình NER phù hợp cho từng phần. Nó xác nhận từng ID quốc gia với logic quốc gia đúng.

Tài liệu đa địa phương

Trường hợp khó nhất là pha trộn địa phương trong tài liệu. Ví dụ:

  • Hợp đồng tiếng Anh của công ty Đức với hồ sơ nhân viên tiếng Đức (tên, ID thuế)
  • Mẫu đồng ý GDPR tiếng Pháp với đoạn trích quyền riêng tư tiếng Anh
  • Cuộc trò chuyện nơi đại lý trả lời bằng tiếng Anh và khách hàng viết bằng tiếng Ả Rập

XLM-RoBERTa xử lý điều này một cách tự nhiên. Nó không cần gắn cờ địa phương rõ ràng. Nó xử lý văn bản đa địa phương mà không cần phân đoạn trước. Điều này tiết kiệm thời gian. Nó cũng tránh lỗi từ việc tách không chính xác.

Đối với sử dụng sản xuất, việc kết hợp tự động phát hiện địa phương (ở cấp độ câu) với suy luận XLM-RoBERTa cho phép xử lý mạnh mẽ tài liệu đa địa phương.

Các bước thực tế

Kiểm toán phạm vi của công cụ. Hỏi nhà cung cấp biên tập của bạn điểm F1 cho các địa phương cụ thể của bạn. "Hỗ trợ 20 ngôn ngữ" thường có nghĩa là công cụ định tuyến văn bản qua dịch máy trước. Đó không phải là quét bản địa.

Lập bản đồ hồ sơ của bạn theo địa phương. Thực hiện kiểm kê hồ sơ bao gồm phân phối địa phương. Một công ty toàn cầu với 70% tiếng Anh, 20% tiếng Đức và 10% tiếng Pháp đối mặt với rủi ro khác nhau. Một công ty với 95% tiếng Anh ở vị trí khác.

Kiểm tra với mẫu ID quốc gia. Xây dựng bộ kiểm tra với 10 ví dụ về ID quốc gia trong hoạt động của bạn — Steuer-ID, NIR, PESEL, BSN và các ID khác. Xác minh tỷ lệ phát hiện. Điều này nhanh hơn so với kiểm tra F1 đầy đủ.

Xem xét DPIA của bạn. Kiểm tra xem phạm vi địa phương có được bao gồm không. DPIA không đầy đủ giả định hồ sơ chỉ tiếng Anh có thể cần cập nhật. Hành động ngay bây giờ. Đừng chờ đợi kiểm toán để tìm khoảng cách.

Để biết định nghĩa loại thực thể đầy đủ, xem tham chiếu thực thểFAQ. Để biết gói và tỷ lệ cuộc gọi API, truy cập bảng giá.


Công cụ phát hiện PII của anonym.legal sử dụng cách tiếp cận đa ngôn ngữ ba tầng. Nó bao phủ 25 địa phương tài nguyên cao qua mô hình spaCy bản địa. Stanza thêm phạm vi địa phương bổ sung. Transformer xuyên ngôn ngữ XLM-RoBERTa mở rộng phạm vi đến 48 địa phương. Các loại thực thể quốc gia cụ thể cho tất cả các quốc gia thành viên EU được bao gồm.

Nguồn tham khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.