Số CPR Đan Mạch: Hướng Dẫn Tuân Thủ GDPR
Cập nhật cho năm 2026
Cơ quan giám sát dữ liệu của Đan Mạch, Datatilsynet, đã ban hành 31 quyết định GDPR trong năm 2024. Mười bốn quyết định liên quan đến dữ liệu y tế. Tỷ lệ cao đó phản ánh hai thực tế: Đan Mạch vận hành một hệ thống y tế quốc gia lớn, và các khoảng cách kỹ thuật trong hệ thống đó tiếp tục phơi lộ hồ sơ bệnh nhân.
Quy Tắc Chữ Số Kiểm Tra cho Số CPR
Số CPR là ID cá nhân của Đan Mạch. Nó gồm 10 chữ số theo định dạng DDMMYY-XXXX. Sáu chữ số đầu là ngày sinh. Bốn chữ số cuối là mã cộng với chữ số kiểm tra.
Chữ số kiểm tra sử dụng quy tắc modulus-11:
- Lấy các chữ số từ 1 đến 9.
- Gán cho mỗi chữ số một trọng số: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Nhân từng chữ số với trọng số của nó. Cộng tất cả kết quả.
- Chia cho 11. Ghi phần dư.
- Phần dư bằng 0 → chữ số kiểm tra là 0.
- Phần dư bằng 1 → số không hợp lệ.
- Phần dư 2–10 → chữ số kiểm tra là 11 trừ phần dư.
Quy tắc này quan trọng với mọi công cụ quét số CPR. Một số chuỗi DDMMYY-XXXX không bao giờ có thể hợp lệ. Các công cụ bỏ qua bước này sẽ cắm cờ ngày tháng, mã hóa đơn và số tham chiếu là ID thực.
Đánh giá năm 2024 của cơ quan phát hiện rằng 67% công cụ NLP thông thường bỏ qua kiểm tra này. Khoảng cách đó là lỗi kỹ thuật hàng đầu trong các vụ y tế của cơ quan.
Năm Sổ Đăng Ký Sức Khỏe của Đan Mạch
Đan Mạch liên kết dữ liệu sức khỏe trên năm sổ đăng ký quốc gia. ID cá nhân liên kết tất cả năm sổ đăng ký.
- Hồ sơ ra viện (từ 1977)
- Dữ liệu đơn thuốc (từ 1995)
- Sổ đăng ký ung thư (từ 1943)
- Sổ đăng ký nguyên nhân tử vong (từ 1970)
- Chẩn đoán chăm sóc sức khỏe cơ bản (từ 1990)
Điều này làm cho nghiên cứu y tế Đan Mạch rất mạnh. Nó cũng tạo ra rủi ro. Xóa ID thô không đủ. Bộ dữ liệu vẫn còn tuổi, giới tính, chẩn đoán và năm có thể tái phơi lộ người — đặc biệt là những người có tình trạng hiếm gặp.
Hướng dẫn năm 2024 của Datatilsynet về sử dụng dữ liệu sức khỏe thứ cấp đặt ra ba yêu cầu.
Ghi lại những gì bạn đã làm với dữ liệu: Liệt kê các trường bạn đã xóa, những trường bạn đã làm tròn hoặc nhóm lại, và kích thước nhóm mà đầu ra đạt được. Ghi chú chính sách không đáp ứng tiêu chuẩn này.
Nhận xem xét bên ngoài cho bộ dữ liệu lớn: Đối với bộ dữ liệu hơn 5.000 người, cơ quan khuyến nghị đánh giá kỹ thuật độc lập về các bước de-identification.
Khớp dữ liệu với câu hỏi: Bộ dữ liệu phải phù hợp với mục tiêu nghiên cứu đã nêu. Cơ quan phát hiện các trường hợp nhóm sử dụng toàn bộ sổ đăng ký quốc gia khi một mẫu nhỏ hơn cũng có thể hoạt động.
Xem hướng dẫn phát hiện ID quốc gia EU của chúng tôi về cách các quy tắc chữ số kiểm tra áp dụng cho các định dạng ID châu Âu khác.
Những Gì Các Vụ Năm 2024 Phát Hiện
Mười bốn vụ y tế có chung ba loại lỗi phổ biến.
Chia sẻ dữ liệu nghiên cứu: Một bệnh viện gửi bộ dữ liệu bệnh nhân đã de-identified đến đối tác học thuật để huấn luyện AI. Bộ dữ liệu chứa các phần ngày sinh, mã chẩn đoán và ngày điều trị. Cơ quan thấy rằng tổ hợp này tái phơi lộ bệnh nhân có bệnh hiếm gặp. Chẩn đoán bất thường thu hẹp nhóm rất nhanh.
Dịch vụ AI bên thứ ba: Một công ty y tế kỹ thuật số gửi ghi chú bệnh nhân đến dịch vụ AI có trụ sở tại Mỹ để làm việc với hồ sơ lâm sàng. ID cá nhân trong các ghi chú đó không được xóa trước. Không có cơ chế chuyển dữ liệu hợp lệ.
Khoảng cách pipeline OCR: Một công ty bảo hiểm xử lý các biểu mẫu PDF được quét cho các khiếu nại về tàn tật. Công cụ OCR của công ty chuyển đổi hình ảnh thành văn bản. Nhưng nó không chạy kiểm tra chữ số kiểm tra trên đầu ra. Nhiều ID bị bỏ sót.
OCR thường chèn khoảng trắng giữa số hoặc dịch chuyển dấu gạch ngang. Khớp mẫu đơn giản bị hỏng trên đầu ra đó. Phát hiện phải hoạt động trên văn bản OCR, không chỉ đầu vào sạch. Xem hướng dẫn phát hiện OCR y tế của chúng tôi để biết các bước xử lý tài liệu được quét.
Ba Điều Bắt Buộc về Kỹ Thuật
Ba yếu tố này tạo thành nền tảng tuân thủ GDPR y tế Đan Mạch.
Kiểm tra chữ số kiểm tra trên tất cả văn bản: Chạy kiểm tra modulus-11 đầy đủ trên mọi chuỗi ứng viên. Áp dụng nó cho cả văn bản sạch và đầu ra OCR.
Phát hiện tên tiếng Đan Mạch: Sử dụng mô hình được huấn luyện trên văn bản tiếng Đan Mạch. Mô hình spaCy da_core_news là một lựa chọn. Mô hình tiếng Anh thông thường bỏ sót tên và tên tổ chức tiếng Đan Mạch.
Hồ sơ de-identification: Ghi lại những gì đã được xóa, những gì đã được nhóm và kích thước nhóm của đầu ra. Cơ quan yêu cầu điều này dưới dạng kỹ thuật, không phải ghi chú chính sách.
Để biết dữ liệu về chi phí sự cố dữ liệu y tế, xem phân tích chi phí vi phạm y tế của chúng tôi.