덴마크 CPR 번호: GDPR 규정 준수 가이드
2026년 기준 최신화
덴마크 데이터 감독 기관 Datatilsynet은 2024년에 31건의 GDPR 결정을 내렸습니다. 14건이 의료 데이터와 관련되었습니다. 이 높은 비율은 두 가지 사실을 반영합니다. 덴마크는 대규모 국가 의료 시스템을 운영하며, 해당 시스템의 기술적 격차가 환자 기록을 계속 노출시키고 있습니다.
CPR 번호의 검사 숫자 규칙
CPR 번호는 덴마크의 개인 ID입니다. DDMMYY-XXXX 형식의 10자리 숫자입니다. 처음 여섯 자리는 생년월일입니다. 나머지 네 자리는 코드와 검사 숫자입니다.
검사 숫자는 모듈로-11 규칙을 사용합니다.
- 1번부터 9번 자리를 가져옵니다.
- 각 자리에 가중치를 부여합니다: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- 각 자리를 가중치와 곱합니다. 모든 결과를 더합니다.
- 11로 나눕니다. 나머지를 기록합니다.
- 나머지 0 → 검사 숫자는 0.
- 나머지 1 → 번호가 유효하지 않습니다.
- 나머지 2~10 → 검사 숫자는 11에서 나머지를 뺀 값.
CPR 번호를 스캔하는 모든 도구에 이 규칙이 중요합니다. 일부 DDMMYY-XXXX 문자열은 절대 유효할 수 없습니다. 이 단계를 건너뛰는 도구는 날짜, 청구서 코드, 참조 번호를 실제 ID로 표시합니다.
이 기관의 2024년 검토 결과 범용 NLP 도구의 67%가 이 검사를 건너뜁니다. 이 격차가 의료 분야 사례에서 가장 빈번한 기술적 실패입니다.
덴마크의 다섯 가지 의료 레지스트리
덴마크는 다섯 개의 국가 레지스트리에 걸쳐 의료 데이터를 연계합니다. 개인 ID가 다섯 개를 모두 연결합니다.
- 병원 퇴원 기록 (1977년부터)
- 처방 데이터 (1995년부터)
- 암 레지스트리 (1943년부터)
- 사망 원인 레지스트리 (1970년부터)
- 일차 의료 진단 (1990년부터)
이는 덴마크 의료 연구를 매우 강력하게 만듭니다. 동시에 위험도 만들어냅니다. 원시 ID를 제거하는 것만으로는 충분하지 않습니다. 여전히 연령, 성별, 진단, 연도가 포함된 데이터셋은 특히 희귀 질환자의 경우 사람을 재노출할 수 있습니다.
Datatilsynet의 2024년 이차적 의료 데이터 이용 지침은 세 가지 요건을 제시합니다.
데이터에 적용한 작업 기록: 어떤 필드를 제거했는지, 어떤 것을 반올림하거나 그룹화했는지, 출력이 달성하는 그룹 크기를 나열하세요. 정책 메모는 이 기준을 충족하지 않습니다.
대규모 데이터셋에 외부 검토 받기: 5,000명 이상의 데이터셋에 대해 당국은 비식별화 단계의 독립적인 기술 검토를 권장합니다.
데이터를 연구 목적에 맞추기: 데이터셋은 명시된 연구 목적에 적합해야 합니다. 당국은 더 작은 샘플로 충분할 수 있는 경우 전체 국가 레지스트리를 사용한 사례를 발견했습니다.
다른 유럽 ID 형식에 대한 검사 숫자 규칙 적용 방법은 EU 국가 ID 감지 가이드를 참고하세요.
2024년 사례에서 발견된 것
14건의 의료 사례는 세 가지 공통적인 실패 유형을 공유합니다.
연구 데이터 공유: 병원이 AI 학습을 위해 익명화된 환자 데이터셋을 학술 파트너에게 전송합니다. 데이터셋에 생년월일 일부, 진단 코드, 치료 날짜가 포함되어 있습니다. 당국은 이러한 조합이 희귀 질환 환자를 재노출한다고 판단합니다. 이례적인 진단은 대상 범위를 빠르게 좁힙니다.
제3자 AI 서비스: 건강기술 기업이 임상 기록 작업을 위해 환자 노트를 미국 기반 AI 서비스에 전송합니다. 해당 노트의 개인 ID가 먼저 제거되지 않았습니다. 유효한 이전 메커니즘도 없습니다.
OCR 파이프라인 격차: 보험사가 장애 청구 스캔 PDF 양식을 처리합니다. OCR 도구가 이미지를 텍스트로 변환합니다. 그런데 출력에 대한 검사 숫자 테스트를 실행하지 않습니다. 많은 ID가 놓칩니다.
OCR은 종종 번호 중간에 공백을 삽입하거나 대시를 이동시킵니다. 단순한 패턴 일치는 이런 출력에서 실패합니다. 감지는 OCR 텍스트에서도 작동해야 하며, 깨끗한 입력에서만 아닙니다. 스캔 문서 처리 단계는 OCR 의료 감지 가이드를 참고하세요.
세 가지 필수 기술 요건
다음 세 가지가 덴마크 의료 GDPR 규정 준수의 기초를 형성합니다.
모든 텍스트에 검사 숫자 테스트 적용: 깨끗한 텍스트와 OCR 출력 모두에 완전한 모듈로-11 검사를 실행합니다.
덴마크어 이름 감지: 덴마크 텍스트로 학습된 모델을 사용하세요. spaCy da_core_news 모델이 한 가지 옵션입니다. 범용 영어 모델은 덴마크 이름과 조직명을 놓칩니다.
비식별화 기록: 무엇을 제거했는지, 무엇을 그룹화했는지, 출력의 그룹 크기를 기록합니다. 당국은 이를 정책 메모가 아닌 기술적 형태로 요청합니다.
의료 데이터 침해 비용에 대한 데이터는 의료 데이터 침해 비용 분석을 참고하세요.