By · Last updated 2026-03-20

Quay lại BlogGDPR & Tuân Thủ

Công cụ PII chỉ tiếng Anh: Khoảng trống GDPR

Steuer-ID của Đức (11 chữ số với tổng kiểm tra) có cấu trúc hoàn toàn khác SSN của Mỹ. Số NIR của Pháp có 15 chữ số. PESEL của Ba Lan và Personnummer của Thụy Điển cũng khác biệt.

March 20, 20268 phút đọc
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Công cụ PII chỉ tiếng Anh: Khoảng trống GDPR

GDPR không có sở thích ngôn ngữ

GDPR áp dụng cho dữ liệu cá nhân ở bất kỳ ngôn ngữ nào. Tiếng Đức, tiếng Pháp, tiếng Ba Lan, tiếng Thụy Điển — tất cả đều được bao phủ như nhau. Một Steuer-ID bị bỏ sót tạo ra rủi ro pháp lý tương tự như một số an sinh xã hội bị bỏ sót. Luật không phân biệt ngôn ngữ.

Hầu hết các công cụ phát hiện PII thì có.

Các công cụ thương mại và mã nguồn mở hàng đầu được xây dựng cho văn bản tiếng Anh. Các bộ phát hiện thực thể của chúng phản ánh điều này. Chúng bao phủ tốt số an sinh xã hội Mỹ, bằng lái xe Mỹ và định dạng điện thoại NANP. Các bộ phát hiện cho số nhận dạng quốc gia không phải tiếng Anh kém chính xác hơn. Chúng được bảo trì ít hơn. Chúng bỏ sót các số nhận dạng thực tế thường xuyên hơn.

Đối với các công ty hoạt động khắp các quốc gia thành viên EU, điều này tạo ra khoảng trống về phạm vi bao phủ. Công cụ báo cáo rằng việc phát hiện đã hoàn tất. Nhưng các số nhận dạng không phải tiếng Anh vẫn còn trong dữ liệu. Đây thường là các số nhận dạng có mức độ phơi nhiễm GDPR lớn nhất ở một số quốc gia nhất định.

Các cơ quan quản lý dữ liệu nhìn thấy điều này. Kiểm toán viên tìm kiếm điều này. Một công cụ có thể hoạt động tốt trên hồ sơ tiếng Anh. Nhưng nếu nó thất bại trên hồ sơ tiếng Đức hoặc tiếng Pháp, nó không tuân thủ. Một báo cáo sạch không thay đổi điều đó.

Số nhận dạng quốc gia khác nhau về cấu trúc

Sự khác biệt giữa công cụ tập trung vào tiếng Anh và công cụ đa ngôn ngữ không chỉ là thêm nhiều mẫu regex hơn. Các số nhận dạng quốc gia EU khác nhau đáng kể. Chúng yêu cầu logic dành riêng cho từng quốc gia để phát hiện chính xác.

Steuer-Identifikationsnummer của Đức (Steuer-ID): 11 chữ số. Sử dụng tổng kiểm tra dựa trên biến thể thuật toán Luhn. Mẫu SSN chung sẽ không nhận ra nó. Mẫu cho bất kỳ số 11 chữ số nào tạo ra quá nhiều kết quả dương tính giả trong tài liệu tiếng Đức.

NIR của Pháp (Numéro d'inscription au répertoire): 15 chữ số. Định dạng mã hóa giới tính, năm và tháng sinh, và département. Cũng bao gồm số thứ tự và khóa kiểm tra 2 chữ số. Phát hiện chính xác yêu cầu xác minh khóa kiểm tra.

Personnummer của Thụy Điển: 10 chữ số với chữ số kiểm tra Luhn. Những người sinh trước năm 1990 sử dụng dấu phân cách + thay vì -. Điều này thay đổi định dạng cần được phát hiện.

PESEL của Ba Lan: 11 chữ số. Mã hóa ngày sinh, giới tính và chữ số kiểm tra dựa trên tổng trọng số. Phát hiện chính xác yêu cầu cả khớp định dạng lẫn xác minh tổng kiểm tra.

Đây không phải là các biến thể của một mẫu chung. Mỗi cái có độ dài khác nhau. Mỗi cái sử dụng phương pháp kiểm tra khác nhau. Mỗi cái mã hóa dữ liệu trong sơ đồ vị trí khác nhau. Mô hình NER được huấn luyện bằng tiếng Anh khi nhìn thấy NIR tiếng Pháp sẽ không nhận ra nó là số nhận dạng quốc gia. Nó bỏ qua hoặc phân loại sai.

Rủi ro tuân thủ thực tế

Hãy tưởng tượng một quản lý tuân thủ tại BPO châu Âu. Họ xử lý dữ liệu từ Đức, Pháp, Ba Lan và Hà Lan cùng một lúc. Công cụ của họ báo cáo ẩn danh hóa PII thành công.

Nhưng kết quả không đầy đủ. Steuer-ID trong hồ sơ tiếng Đức vẫn còn. Số NIR trong hồ sơ tiếng Pháp vẫn còn. Số PESEL trong hồ sơ tiếng Ba Lan vẫn còn. Các bộ phát hiện của công cụ thiếu hoặc không đủ chính xác cho các định dạng này.

Sau đó chuyển tập dữ liệu vào phân tích hoặc cho đối tác nghiên cứu để lại dữ liệu vẫn chứa các số nhận dạng quốc gia có thể tái nhận dạng. Vấn đề GDPR sẽ không xuất hiện trong nhật ký công cụ. Nó xuất hiện khi có yêu cầu truy cập dữ liệu. Có thể xuất hiện trong kiểm toán của cơ quan quản lý dữ liệu. Có thể xuất hiện sau khi vi phạm dữ liệu.

Nghiên cứu so sánh các phương pháp đa ngôn ngữ kết hợp với các công cụ tập trung vào tiếng Anh cho kết quả rõ ràng. Các phương pháp kết hợp đạt điểm F1 từ 0,60 đến 0,83 trên các ngôn ngữ EU. Các công cụ chỉ tiếng Anh đạt điểm gần bằng không cho các định dạng số nhận dạng quốc gia không phải tiếng Anh.

Xem tổng quan tuân thủ GDPR để biết các khoảng trống này ánh xạ đến các nghĩa vụ GDPR như thế nào.

Những gì phạm vi bao phủ đầy đủ yêu cầu

Phát hiện PII đa ngôn ngữ thực sự cho tuân thủ GDPR EU yêu cầu ba lớp.

Mô hình spaCy gốc ngôn ngữ cung cấp hiểu biết ngữ nghĩa theo ngôn ngữ của văn bản. Mô hình được huấn luyện trên văn bản tiếng Đức biết "Müller" là họ phổ biến của Đức. Các mô hình tồn tại cho 25 ngôn ngữ EU có tài nguyên cao.

Mô hình Stanza NLP mở rộng phạm vi bao phủ cho các ngôn ngữ không có trong spaCy. Thêm phạm vi tiếp cận cho nhiều cộng đồng ngôn ngữ EU hơn.

Mô hình transformer đa ngôn ngữ (XLM-RoBERTa) xử lý các trường hợp xuyên ngôn ngữ. Một tên trong câu tiếng Pháp được nhận ra là tên riêng. Điều này hoạt động ngay cả khi mô hình không được huấn luyện trên tên cụ thể đó.

Regex với xác thực theo từng quốc gia bao phủ các số nhận dạng quốc gia có cấu trúc. Steuer-ID, NIR, PESEL và Personnummer mỗi cái cần logic tổng kiểm tra riêng. Điều này làm giảm kết quả dương tính giả. Các chuỗi số không vượt qua quy tắc xác thực của quốc gia được lọc ra.

Khoảng trống mang tính cấu trúc. Thêm từ điển hoặc nhiều mẫu regex hơn chỉ mang lại cải thiện nhỏ. Cách tiếp cận duy nhất đáng tin cậy là tích hợp phạm vi bao phủ số nhận dạng EU từ đầu.

Kiểm tra công cụ hiện tại của bạn

Hỏi nhà cung cấp của bạn về điểm F1 cho hồ sơ tiếng Đức, tiếng Pháp, tiếng Ba Lan và tiếng Hà Lan. "Hỗ trợ đa ngôn ngữ" thường có nghĩa là công cụ áp dụng dịch máy trước. Đó không phải là quét gốc. Tuân thủ GDPR yêu cầu quét gốc.

Kiểm tra với các mẫu số nhận dạng quốc gia thực tế. Xây dựng một tập kiểm tra ngắn với 10 ví dụ của mỗi loại ID trong hoạt động của bạn. Steuer-ID, NIR, PESEL, Personnummer. Kiểm tra tỷ lệ phát hiện. Nhanh hơn một bài kiểm tra F1 đầy đủ và nhanh chóng phát hiện khoảng trống.

Xem trang bảo mật và tuân thủ để biết anonym.legal giải quyết các yêu cầu này như thế nào. Xem tài liệu tham khảo các loại thực thể để biết định nghĩa các loại thực thể.

Nguồn tài liệu

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.