Danimarka'nın Datatilsynet'i 2024'te 31 GDPR uygulama kararı verdi, bunlardan 14'ü özellikle sağlık verisi sistemlerini kapsıyor — bu, Danimarka'nın kapsamlı ulusal sağlık veri altyapısının yüksek risklerini ve hasta verilerini sürekli olarak açığa çıkaran teknik hataları yansıtıyor.
CPR Numarası: Modulus-11 Gerekliliği
CPR numarası (Det Centrale Personregister-nummer) — 10 haneli, format DDMMYY-XXXX — doğum tarihini (haneler 1-6) ve kontrol haneli bir sıralı numarayı (haneler 7-10) kodlar. Son hane, modulus-11 aritmetiği kullanılarak doğrulanır:
Modulus-11 kontrolü: haneleri 1-9 ağırlıklarla (4,3,2,7,6,5,4,3,2) çarp, topla, 11 ile mod al. Sonuç 0 ise, kontrol haneleri = 0. Sonuç 1 ise, CPR geçersizdir (bu ön ek için geçerli bir kontrol haneleri yoktur). Aksi takdirde, kontrol haneleri = 11 eksi sonuç.
Bu, bazı DDMMYY-XXXX desenlerinin asla geçerli CPR numaraları olamayacağı önemli bir özellik yaratır (modulus-11 hesaplaması 1 ürettiğinde). Modulus-11 doğrulaması olmadan DDMMYY-XXXX formatında 10 haneli numaraları desen eşleştiren araçlar, tarih dizeleri, referans numaraları ve fatura kodlarından yanlış pozitifler üretir.
Genel NLP araçlarının %67'si CPR modulus-11 uygulamasından yoksundur (Datatilsynet 2024). Bu tespit hatası, Datatilsynet'in sağlık hizmetleri uygulama eylemlerinde en çok alıntılanan teknik yetersizliktir.
Danimarka'nın Sağlık Verisi Araştırma Ekosistemi
Danimarka'nın sağlık kayıtları — dünyanın en kapsamlı uzunlamasına sağlık veri setlerinden bazıları — CPR numarası aracılığıyla bağlantılıdır. CPR, araştırmacıların bağlantı kurmasını sağlar:
- Hastane taburcu kayıtları (1977'den itibaren)
- Reçete veritabanı (1995'ten itibaren)
- Kanser kaydı (1943'ten itibaren)
- Ölüm nedeni kaydı (1970'ten itibaren)
- Birincil bakım tanı verileri (1990'dan itibaren)
Bu bağlantı sağlama, Danimarka sağlık araştırmalarını dünya standartlarında yapar ancak Datatilsynet'in ciddiye aldığı bir yeniden tanımlama riski yaratır: CPR ile bağlantılı özellikleri (yaş, cinsiyet, tanı, yıl) koruyan "de-anonimleştirilmiş" veri setleri, diğer veri setleri ile birleştirildiğinde yeniden tanımlanabilir.
Datatilsynet'in 2024'teki ikincil sağlık verisi kullanımıyla ilgili kılavuzu, bu kayıtları kullanan kuruluşların aşağıdakileri göstermesini gerektirir:
Teknik anonimleştirme belgeleri: Bir politika beyanı değil, hangi tanımlayıcıların kaldırıldığını, hangi yarı tanımlayıcıların genelleştirildiğini ve çıktı veri setinde hangi k-anonimlik seviyesinin elde edildiğini gösteren teknik belgeler.
Araştırma veri setleri için üçüncü taraf doğrulama: 5,000'den fazla birey içeren araştırma veri setleri için, Datatilsynet anonimleştirme prosedürlerinin bağımsız teknik incelemesini önermektedir.
Veri minimizasyonu: Araştırma veri setinin kapsamı belgelenmiş araştırma sorusuyla eşleşmelidir. Datatilsynet, araştırmacıların araştırma amacına hizmet edecek bir rastgele örnek veya coğrafi olarak sınırlı veri seti yerine tam ulusal kayıtları kullandığı birçok durumu tespit etmiştir.
Spesifik Sağlık Hizmetleri Uygulama Bulguları
Datatilsynet'in 2024'teki 14 sağlık hizmetleri uygulama kararı, tekrar eden teknik hataları belgeler:
Vaka deseni 1: Hastane, de-anonimleştirilmiş hasta veri setini akademik araştırma ortağıyla AI eğitimi için paylaşır. Veri seti, CPR doğum tarihi bileşenlerini, tanı kodlarını ve tedavi tarihlerini içerir. Datatilsynet, kombinasyonun nadir hastalık hastalarının yeniden tanımlanmasını sağladığını bulur (küçük payda sorunu — alışılmadık tanılar tanımlamayı önemli ölçüde daraltır).
Vaka deseni 2: Sağlık teknolojisi girişimi, Danimarkalı hasta verilerini klinik dokümantasyon desteği için ABD merkezli AI API'si aracılığıyla işler. Tıbbi notlardaki CPR numaraları, yeterli transfer mekanizması olmadan ve önceden CPR tespiti ve kaldırılması olmadan ABD sunucularına iletilir.
Vaka deseni 3: Sigorta şirketi, engellilik talepleri için tıbbi sertifika verilerini işler. Tarayıcıdan alınan PDF sertifikalarındaki CPR numaraları, şirketin OCR-artı-çıkarma hattı tarafından tespit edilmez (OCR, görüntüyü metne çevirir; metin işlenir ancak CPR doğrulaması olmadan, birçok CPR numarası formatlama kalıntıları nedeniyle OCR çıktısında atlanır).
OCR-artı-çıkarma hata modu, belgelerin taranmış görüntüler olarak alındığı sağlık hizmetleri bağlamlarında özellikle yaygındır. CPR tespiti, genellikle format tutarsızlıkları (numara ortasında boşluklar, tire pozisyon hataları) getiren OCR işlenmiş metinde çalışmalıdır; bu da basit desen eşleştirmeyi bozar.
Danimarka sağlık hizmetleri GDPR uyumluluğu için: Hem temiz metinde hem de OCR işlenmiş çıktıda modulus-11 doğrulaması ile CPR tespiti, Danimarka dili NER (spaCy da_core_news) ve Datatilsynet'in 2024 ikincil kullanım standartlarını karşılayan teknik anonimleştirme belgeleri minimum gereksinimlerdir.
Kaynaklar: