By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

Phát Hiện PII Tiếng Đức Để Tuân Thủ DSGVO

BfDI ghi nhận 27.829 thông báo vi phạm năm 2024 — kỷ lục mọi thời đại của Đức. 65% doanh nghiệp Đức dùng công cụ không đủ hỗ trợ PII tiếng Đức.

June 5, 20269 phút đọc
Germany BfDIDACH complianceSteuer-ID detectionGerman language PIIDSGVO technical

Đức ghi nhận 27.829 thông báo vi phạm bảo vệ dữ liệu đến Bundesdatenschutzbeauftragte (BfDI) và 16 cơ quan bảo vệ dữ liệu cấp tiểu bang năm 2024 — kỷ lục mọi thời đại mới và chiếm 31% tổng số thông báo vi phạm EU GDPR. Quy mô báo cáo vi phạm của Đức phản ánh cả mật độ thực thi cao lẫn một khoảng trống kỹ thuật có hệ thống: 65% doanh nghiệp Đức sử dụng các công cụ phát hiện PII bằng tiếng Anh với hỗ trợ ngôn ngữ tiếng Đức không đầy đủ.

Cấu Trúc Thực Thi Ba Cấp Của Đức

Việc thực thi GDPR tại Đức đặc biệt phức tạp vì được phân chia trên 17 cơ quan:

BfDI (Ủy viên Liên bang): Thẩm quyền đối với các cơ quan liên bang, viễn thông, dịch vụ bưu chính và các tổ chức hoạt động xuyên tiểu bang.

16 Landesdatenschutzbehörden (Cơ quan bảo vệ dữ liệu tiểu bang): Mỗi tiểu bang của Đức có DPA độc lập với thẩm quyền thực thi riêng đối với các tổ chức trong tiểu bang đó. Các DPA tiểu bang tích cực nhất:

  • Bayern (Bavaria): Bayerisches Landesamt für Datenschutzaufsicht (BayLDA) — một trong những DPA đòi hỏi kỹ thuật nhất ở EU
  • Hamburg: Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit — tiên phong trong việc thực thi đối với các nhà khai thác nền tảng Mỹ
  • Baden-Württemberg: Der Landesbeauftragte für den Datenschutz und die Informationsfreiheit (LfDI BW) — ban hành hướng dẫn DSGVO đặc thù AI đầu tiên ở Đức

Cấu trúc ba cấp này có nghĩa là các tổ chức Đức phải đối mặt với việc thực thi từ cả cấp liên bang lẫn tiểu bang đồng thời. BayLDA đã kiểm tra hơn 250 tổ chức năm 2024, gửi các bảng câu hỏi về bảo vệ dữ liệu yêu cầu mô tả biện pháp kỹ thuật có tài liệu.

Sự Phức Tạp DACH: Ba Chế Độ, Một Ngôn Ngữ

Các tổ chức nói tiếng Đức trong khu vực DACH (Đức, Áo, Thụy Sĩ) hoạt động theo ba khung pháp lý khác nhau với các yêu cầu kỹ thuật khác nhau:

Đức: EU GDPR + thực thi BfDI/Landesdatenschutzbehörden. Các mã định danh đặc thù của Đức: Steueridentifikationsnummer (11 chữ số), Personalausweis (10 ký tự), định dạng IBAN/DE.

Áo: EU GDPR + thực thi DSB. Các mã định danh của Áo: Sozialversicherungsnummer (SVNR, 10 chữ số), eAT (giấy phép cư trú điện tử), số FinanzOnline.

Thụy Sĩ: revDSG (Đạo luật Liên bang Thụy Sĩ mới về Bảo vệ Dữ liệu, có hiệu lực tháng 9 năm 2023) — không phải EU GDPR, nhưng được mô hình hóa chặt chẽ theo đó. Các mã định danh Thụy Sĩ: AHV-Nummer (13 chữ số, định dạng 756.XXXX.XXXX.XX), UID (mã định danh công ty).

Các tổ chức hoạt động trên cả ba quốc gia DACH cần một công cụ PII xử lý được văn bản tiếng Đức và tất cả các mã định danh quốc gia của cả ba quốc gia — cộng thêm DSG Liechtenstein (khung nhỏ thứ tư cho công quốc nhỏ giữa Thụy Sĩ và Áo).

Các Mã Định Danh Quốc Gia Đức

Steueridentifikationsnummer (Steuer-ID): Mã định danh thuế vĩnh viễn 11 chữ số được cấp cho tất cả cư dân Đức từ khi sinh. Định dạng: chữ số đầu khác không + 10 chữ số tiếp theo + chữ số kiểm tra (sử dụng thuật toán mô-đun). Xuất hiện trong tất cả tài liệu thuế, việc làm và tài chính của Đức.

Personalausweisnummer: Số thẻ căn cước quốc gia Đức theo định dạng LNNNNNNNC (1 chữ cái + 8 chữ số + 1 ký tự kiểm tra). Ký tự kiểm tra được tính bằng thuật toán tổng có trọng số. Mỗi công dân Đức và cư dân EU tại Đức đều có số Personalausweis.

Sozialversicherungsnummer (SV-Nummer): Định dạng: NNDDMMYYAAAA (mã khu vực 2 chữ số + ngày sinh DDMMYY + chữ cái đầu tên 2 chữ cái + chữ số kiểm tra). Được dùng trong hồ sơ việc làm và hưu trí.

IBAN Đức: Định dạng DE + 2 chữ số kiểm tra + mã ngân hàng 8 chữ số (Bankleitzahl, BLZ) + số tài khoản 10 chữ số. Xác thực IBAN sử dụng chữ số kiểm tra mod-97 là tiêu chuẩn, nhưng định dạng mã ngân hàng đặc thù của Đức yêu cầu xác thực bổ sung.

Krankenversicherungsnummer (KVNr): Số bảo hiểm y tế 10 ký tự (1 chữ cái + 9 chữ số). Chữ cái xác định nhà bảo hiểm; các chữ số bao gồm chữ số kiểm tra.

Khoảng Trống Công Cụ 65%

Khảo sát năm 2024 của BfDI cho thấy 65% doanh nghiệp Đức sử dụng các công cụ PII với hỗ trợ ngôn ngữ tiếng Đức không đầy đủ. Các lỗi cụ thể được ghi nhận:

Phát hiện Steuer-ID: Khớp mẫu mà không có xác thực chữ số kiểm tra, tạo ra kết quả dương tính giả từ bất kỳ chuỗi số 11 chữ số nào trong tài liệu tiếng Đức.

Phát hiện Personalausweis: Bỏ sót khi định dạng xuất hiện mà không có nhãn "Personalausweis" rõ ràng trong tài liệu — phát hiện theo ngữ cảnh yêu cầu NER tiếng Đức để nhận dạng loại tài liệu.

Nhận dạng tên tiếng Đức: Các mô hình NLP được đào tạo trên văn bản tiếng Anh không nhận dạng được tên tiếng Đức, đặc biệt là tên ghép (Hans-Wilhelm, Anna-Katharina) và các ký tự nguyên âm biến âm đặc thù của tiếng Đức (Müller, Schröder, Böhm).

Định dạng địa chỉ tiếng Đức: Địa chỉ tiếng Đức (Straße, Platz, Weg, Gasse) khác với cấu trúc địa chỉ tiếng Anh. Các mô hình phân tích địa chỉ tiếng Đức bằng bộ phân tích tiếng Anh tạo ra lỗi có hệ thống.

Để tuân thủ các yêu cầu kỹ thuật của BfDI, BayLDA và các DPA Đức khác, tiêu chuẩn là: NER tiếng Đức (spaCy de_core_news hoặc tương đương), phát hiện Steuer-ID và Personalausweis với xác thực tổng kiểm tra, hỗ trợ SVNR cho tài liệu Áo và hỗ trợ AHV-Nummer cho tài liệu Thụy Sĩ.

Nguồn tham khảo:

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.