By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

Đan Mạch CPR: Xác Thực Modulus-11 cho GDPR

67% công cụ NLP bỏ sót xác thực modulus-11 của số CPR Đan Mạch. Datatilsynet ban hành 14 quyết định thực thi y tế năm 2024. Sử dụng thứ cấp dữ liệu sức khỏe.

June 5, 20267 phút đọc
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Số CPR Đan Mạch: Hướng Dẫn Tuân Thủ GDPR

Cập nhật cho năm 2026

Cơ quan giám sát dữ liệu của Đan Mạch, Datatilsynet, đã ban hành 31 quyết định GDPR trong năm 2024. Mười bốn quyết định liên quan đến dữ liệu y tế. Tỷ lệ cao đó phản ánh hai thực tế: Đan Mạch vận hành một hệ thống y tế quốc gia lớn, và các khoảng cách kỹ thuật trong hệ thống đó tiếp tục phơi lộ hồ sơ bệnh nhân.

Quy Tắc Chữ Số Kiểm Tra cho Số CPR

Số CPR là ID cá nhân của Đan Mạch. Nó gồm 10 chữ số theo định dạng DDMMYY-XXXX. Sáu chữ số đầu là ngày sinh. Bốn chữ số cuối là mã cộng với chữ số kiểm tra.

Chữ số kiểm tra sử dụng quy tắc modulus-11:

  1. Lấy các chữ số từ 1 đến 9.
  2. Gán cho mỗi chữ số một trọng số: 4, 3, 2, 7, 6, 5, 4, 3, 2.
  3. Nhân từng chữ số với trọng số của nó. Cộng tất cả kết quả.
  4. Chia cho 11. Ghi phần dư.
  5. Phần dư bằng 0 → chữ số kiểm tra là 0.
  6. Phần dư bằng 1 → số không hợp lệ.
  7. Phần dư 2–10 → chữ số kiểm tra là 11 trừ phần dư.

Quy tắc này quan trọng với mọi công cụ quét số CPR. Một số chuỗi DDMMYY-XXXX không bao giờ có thể hợp lệ. Các công cụ bỏ qua bước này sẽ cắm cờ ngày tháng, mã hóa đơn và số tham chiếu là ID thực.

Đánh giá năm 2024 của cơ quan phát hiện rằng 67% công cụ NLP thông thường bỏ qua kiểm tra này. Khoảng cách đó là lỗi kỹ thuật hàng đầu trong các vụ y tế của cơ quan.

Năm Sổ Đăng Ký Sức Khỏe của Đan Mạch

Đan Mạch liên kết dữ liệu sức khỏe trên năm sổ đăng ký quốc gia. ID cá nhân liên kết tất cả năm sổ đăng ký.

  • Hồ sơ ra viện (từ 1977)
  • Dữ liệu đơn thuốc (từ 1995)
  • Sổ đăng ký ung thư (từ 1943)
  • Sổ đăng ký nguyên nhân tử vong (từ 1970)
  • Chẩn đoán chăm sóc sức khỏe cơ bản (từ 1990)

Điều này làm cho nghiên cứu y tế Đan Mạch rất mạnh. Nó cũng tạo ra rủi ro. Xóa ID thô không đủ. Bộ dữ liệu vẫn còn tuổi, giới tính, chẩn đoán và năm có thể tái phơi lộ người — đặc biệt là những người có tình trạng hiếm gặp.

Hướng dẫn năm 2024 của Datatilsynet về sử dụng dữ liệu sức khỏe thứ cấp đặt ra ba yêu cầu.

Ghi lại những gì bạn đã làm với dữ liệu: Liệt kê các trường bạn đã xóa, những trường bạn đã làm tròn hoặc nhóm lại, và kích thước nhóm mà đầu ra đạt được. Ghi chú chính sách không đáp ứng tiêu chuẩn này.

Nhận xem xét bên ngoài cho bộ dữ liệu lớn: Đối với bộ dữ liệu hơn 5.000 người, cơ quan khuyến nghị đánh giá kỹ thuật độc lập về các bước de-identification.

Khớp dữ liệu với câu hỏi: Bộ dữ liệu phải phù hợp với mục tiêu nghiên cứu đã nêu. Cơ quan phát hiện các trường hợp nhóm sử dụng toàn bộ sổ đăng ký quốc gia khi một mẫu nhỏ hơn cũng có thể hoạt động.

Xem hướng dẫn phát hiện ID quốc gia EU của chúng tôi về cách các quy tắc chữ số kiểm tra áp dụng cho các định dạng ID châu Âu khác.

Những Gì Các Vụ Năm 2024 Phát Hiện

Mười bốn vụ y tế có chung ba loại lỗi phổ biến.

Chia sẻ dữ liệu nghiên cứu: Một bệnh viện gửi bộ dữ liệu bệnh nhân đã de-identified đến đối tác học thuật để huấn luyện AI. Bộ dữ liệu chứa các phần ngày sinh, mã chẩn đoán và ngày điều trị. Cơ quan thấy rằng tổ hợp này tái phơi lộ bệnh nhân có bệnh hiếm gặp. Chẩn đoán bất thường thu hẹp nhóm rất nhanh.

Dịch vụ AI bên thứ ba: Một công ty y tế kỹ thuật số gửi ghi chú bệnh nhân đến dịch vụ AI có trụ sở tại Mỹ để làm việc với hồ sơ lâm sàng. ID cá nhân trong các ghi chú đó không được xóa trước. Không có cơ chế chuyển dữ liệu hợp lệ.

Khoảng cách pipeline OCR: Một công ty bảo hiểm xử lý các biểu mẫu PDF được quét cho các khiếu nại về tàn tật. Công cụ OCR của công ty chuyển đổi hình ảnh thành văn bản. Nhưng nó không chạy kiểm tra chữ số kiểm tra trên đầu ra. Nhiều ID bị bỏ sót.

OCR thường chèn khoảng trắng giữa số hoặc dịch chuyển dấu gạch ngang. Khớp mẫu đơn giản bị hỏng trên đầu ra đó. Phát hiện phải hoạt động trên văn bản OCR, không chỉ đầu vào sạch. Xem hướng dẫn phát hiện OCR y tế của chúng tôi để biết các bước xử lý tài liệu được quét.

Ba Điều Bắt Buộc về Kỹ Thuật

Ba yếu tố này tạo thành nền tảng tuân thủ GDPR y tế Đan Mạch.

Kiểm tra chữ số kiểm tra trên tất cả văn bản: Chạy kiểm tra modulus-11 đầy đủ trên mọi chuỗi ứng viên. Áp dụng nó cho cả văn bản sạch và đầu ra OCR.

Phát hiện tên tiếng Đan Mạch: Sử dụng mô hình được huấn luyện trên văn bản tiếng Đan Mạch. Mô hình spaCy da_core_news là một lựa chọn. Mô hình tiếng Anh thông thường bỏ sót tên và tên tổ chức tiếng Đan Mạch.

Hồ sơ de-identification: Ghi lại những gì đã được xóa, những gì đã được nhóm và kích thước nhóm của đầu ra. Cơ quan yêu cầu điều này dưới dạng kỹ thuật, không phải ghi chú chính sách.

Để biết dữ liệu về chi phí sự cố dữ liệu y tế, xem phân tích chi phí vi phạm y tế của chúng tôi.

Nguồn

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.