デンマークCPR番号:GDPRコンプライアンスガイド
2026年更新版
デンマークのデータ保護当局であるDatatilsynetは、2024年に31件のGDPR決定を下しました。そのうち14件は医療データに関するものでした。この高い割合は2つの事実を反映しています。デンマークは大規模な国家医療システムを運営しており、そのシステムの技術的なギャップが患者記録を継続的に露出させているのです。
CPR番号のチェックデジット規則
CPR番号はデンマークの個人識別子です。DDMMYY-XXXX形式の10桁の数字です。最初の6桁は生年月日です。残りの4桁は連番とチェックデジットで構成されています。
チェックデジットはモジュロ11規則を使用します:
- 第1桁から第9桁を取得する。
- それぞれに重みを割り当てる:4、3、2、7、6、5、4、3、2。
- 各桁を対応する重みで乗算する。すべての結果を合計する。
- 11で割り、余りを記録する。
- 余り0 → チェックデジットは0。
- 余り1 → 番号は無効。
- 余り2〜10 → チェックデジットは11から余りを引いた値。
この規則はテキスト内のCPR番号を検索するツールにとって重要です。DDMMYY-XXXX形式のすべての10桁文字列が有効とは限りません。このステップをスキップするツールは、日付、請求書コード、参照番号を実際の識別子としてフラグ付けします。
当局の2024年審査では、汎用NLPツールの67%がこの検証を行っていないことが判明しました。このギャップは当局の医療事案で最も頻繁に指摘される技術的欠陥です。
デンマークの5つの健康登録システム
デンマークは5つの国家登録システムを通じて健康データを連携させています。個人識別子がすべてを結びつけています。
- 病院退院記録(1977年〜)
- 処方箋データベース(1995年〜)
- がん登録(1943年〜)
- 死因登録(1970年〜)
- 一次医療診断(1990年〜)
これによりデンマークの健康研究は非常に強力なものになっています。しかし同時にリスクも生まれています。生の識別子を削除するだけでは不十分です。年齢、性別、診断名、年を組み合わせたデータセットは、特に希少疾患の場合、個人を再識別できる可能性があります。
Datatilsynetの2024年二次健康データ使用に関するガイダンスは3つの要件を定めています。
技術的な匿名化文書: どのフィールドを削除したか、どれを一般化したか、出力データのグループサイズはどの程度かを記録してください。ポリシー声明ではこの基準を満たしません。
大規模データセットの外部審査: 5,000人以上のデータセットについて、当局は匿名化手順の独立した技術審査を推奨しています。
データ最小化: データセットは記載された研究目的に対応している必要があります。当局は、より小さなサンプルで十分だったにもかかわらず完全な国家登録を使用したケースを発見しています。
他のヨーロッパの識別子形式におけるチェックデジット規則については、EU国家IDの検出ガイドをご覧ください。
2024年の事案が明らかにしたこと
14件の医療事案は3つの共通する失敗パターンを示しています。
研究データの共有: 病院がAIトレーニング用に匿名化した患者データセットを学術パートナーに送信します。セットには生年月日の一部、診断コード、治療日が含まれています。当局はこの組み合わせが希少疾患患者を再識別できると判断しています。
サードパーティAIサービス: ヘルステック企業が臨床記録のために患者メモを米国のAIサービスに送信します。そのメモの個人識別子は送信前に削除されていません。有効な転送メカニズムも整っていません。
OCRパイプラインの欠陥: 保険会社が障害給付申請のためスキャンしたPDFフォームを処理します。OCRツールが画像をテキストに変換しますが、出力にチェックデジット検証を実行しません。多くの識別子が見逃されます。
OCRは数字の途中にスペースを挿入したりハイフンをずらしたりすることがよくあります。単純なパターンマッチングはそのような出力には対応できません。検出はクリーンな入力だけでなく、OCRテキストにも機能する必要があります。スキャン文書の実践的な手順については、医療OCR検出ガイドをご覧ください。
3つの技術的最低要件
これら3つの要素がデンマーク医療GDPRコンプライアンスの基盤を形成します。
すべてのテキストへのチェックデジット検証: すべての候補文字列に対してモジュロ11の完全な確認を実行します。クリーンなテキストとOCR出力の両方に適用します。
デンマーク語の名前検出: デンマーク語テキストで訓練されたモデルを使用します。spaCyのda_core_newsパイプラインが一つの選択肢です。汎用英語モデルはデンマーク語の名前や組織名を見逃します。
匿名化の記録: 何を削除したか、何を一般化したか、出力のグループサイズを記録します。当局はこれを技術的な形式で要求しており、ポリシー声明ではありません。
医療データインシデントの財務的コストについては、医療違反コスト分析をご覧ください。