Powrót do blogaTechniczne

Dane do szkolenia ML zgodne z RODO: Anonimizacja 10...

RODO ogranicza użycie danych osobowych do szkolenia ML poza ich pierwotnym celem zbierania.

April 20, 20267 min czytania
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Dane do szkolenia ML zgodne z RODO: Anonimizacja 10 000 rekordów bez pisania kodu

Każdy zespół naukowców danych zajmujący się danymi podlegającymi RODO napisał jakąś wersję tego skryptu:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

To nie jest zgodność z RODO. To tylko zastąpienie adresu e-mail. Zestaw danych nadal zawiera imiona, numery telefonów, identyfikatory rekordów medycznych i tuzin innych kategorii PII, które spowodują niezgodności.

Różnica między "Zanonimizowałem e-maile" a "ten zestaw danych jest zgodny z RODO do szkolenia ML" jest duża, konsekwentna i rutynowo niedoszacowywana.

Dlaczego RODO ogranicza użycie danych do szkolenia ML

Zasada ograniczenia celu RODO (artykuł 5(1)(b)) stwierdza, że dane osobowe mogą być zbierane w określonych, wyraźnych i uzasadnionych celach i nie mogą być przetwarzane w sposób niezgodny z tymi celami.

Dane klientów zebrane w celu realizacji zamówienia nie zostały zebrane w celu szkolenia modelu rekomendacji. Dane z rekordów zdrowotnych zebrane w celu leczenia nie zostały zebrane w celu szkolenia modelu przewidywania ponownej hospitalizacji. Dane z odpowiedzi na ankiety zebrane w celu uzyskania informacji zwrotnej o produkcie nie zostały zebrane w celu szkolenia modelu analizy sentymentu.

Użycie tych danych do szkolenia ML wymaga:

  1. Wyraźnej zgody każdego podmiotu danych na cel szkolenia ML (operacyjnie złożone, często niemożliwe do zrealizowania wstecz)
  2. Oceny uzasadnionego interesu, która pokazuje, że cel szkolenia jest zgodny z pierwotnym zbiorem (prawnie niepewne, zależne od DPA)
  3. Anonimizacji — usunięcia lub zastąpienia PII, aby dane nie były już danymi osobowymi zgodnie z RODO

Odpowiednia anonimizacja jest drogą o najmniejszym oporze i największej pewności prawnej. Wyzwanie polega na tym, aby zrobić to poprawnie i konsekwentnie.

Problem z ad-hoc skryptami anonimizacyjnymi

Zespoły naukowców danych piszące jednorazowe skrypty Pythona dla każdego nowego zestawu danych tworzą narastające problemy:

Niekompletne pokrycie: Skrypt napisany do obsługi schematu jednego zestawu danych pomija PII w kolumnach dodanych od ostatniej aktualizacji schematu. Pole notatek klinicznych dodane 6 miesięcy temu: nie w wzorze regex. Pole drugiego imienia klienta: regex obsługuje tylko wzory FIRST_NAME i LAST_NAME.

Niespójność między zestawami danych: Zestaw danych A został zanonimizowany za pomocą script_v1.py. Zestaw danych B został zanonimizowany za pomocą script_v3.py. Zestaw danych C został zanonimizowany przez innego członka zespołu, który nie wiedział o script_v3.py. Połączony zestaw danych do szkolenia ma trzy różne metodologie anonimizacji. DPO nie może go zatwierdzić.

Brak śladu audytowego: Skrypt został uruchomiony. Co zmienił? Jakie podmioty zostały znalezione? W których wierszach? Bez przetwarzania metadanych, dokumentacja zgodności jest niemożliwa. Kiedy audytor DPA pyta "jak wiesz, że ten zestaw danych do szkolenia jest zanonimizowany?", "uruchomiliśmy skrypt Pythona" nie jest satysfakcjonującą odpowiedzią.

Zmiana modelu: Wzory regex, które działały na danych z 2023 roku, nie wykrywają nowych formatów identyfikatorów wprowadzonych w danych z 2024 roku (nowy format SSN, różne wzory domen e-mailowych, ewoluujące formaty numerów telefonów). Skrypty nie aktualizują się same.

Podejście przetwarzania wsadowego

Zespół naukowców danych firmy AI w opiece zdrowotnej musi zanonimizować 8 000 rekordów pacjentów, zanim ich amerykański zespół będzie mógł uzyskać do nich dostęp z biura w UE (obowiązuje ograniczenie transferu danych w ramach Schrems II).

Tradycyjne podejście: Inżynier danych pisze niestandardowy skrypt anonimizacyjny w Pythonie. Czas: 2-3 dni rozwoju, 1-2 dni testowania i przeglądu z DPO, 1 dzień iteracji. Łącznie: 4-6 dni. Harmonogram projektu ML się opóźnia.

Podejście przetwarzania wsadowego:

  1. Eksportuj 8 000 rekordów jako CSV (standardowy format nauki danych)
  2. Prześlij do przetwarzania wsadowego
  3. Skonfiguruj typy podmiotów: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Wybierz metodę: Zastąp (podstawia realistyczne fałszywe dane, aby zachować strukturę zestawu danych do szkolenia ML)
  5. Przetwarzaj: 45 minut dla 8 000 rekordów
  6. Pobierz zanonimizowany plik CSV
  7. DPO przegląda metadane przetwarzania (podmioty znalezione na rekord, zastosowane metody): 2 godziny
  8. DPO zatwierdza, udostępnienie danych postępuje

Całkowity czas: 45 minut przetwarzania + 2 godziny przeglądu DPO w porównaniu do 4-6 dni inżynierii. Harmonogram ML pozostaje na właściwej ścieżce.

Zastąp vs. Cenzura dla danych do szkolenia ML

Wybór metody anonimizacji ma znaczenie dla użyteczności ML:

Cenzura (czarna linia / zastąpienie tokenem): Zastępuje PII [CENZUROWANE] lub podobnym tokenem. Powstały zestaw danych ma spójne tokeny zastępcze tam, gdzie było PII. Dla modeli NLP szkolonych do wykrywania PII, to tworzy oznakowany zestaw danych. Dla modeli szkolonych na zadaniach downstream (sentyment, klasyfikacja, rekomendacja), token [CENZUROWANE] zakłóca modelowanie języka naturalnego — model uczy się, że [CENZUROWANE] to specjalny token, a nie uczy się z rozkładu prawdziwych imion i wartości.

Zastąp (realistyczna syntetyczna substytucja): Zastępuje "John Smith" "David Chen" (realistyczne, ale inne imię). E-mail "jsmith@company.com" staje się "dchen@synthetic.com". Powstały zestaw danych zachowuje rozkłady języka naturalnego — strukturę zdania, rozmieszczenie podmiotów, wzory współwystępowania — które są ważne dla szkolenia modeli NLP.

Dla danych do szkolenia ML konkretnie, Zastąp jest odpowiednią metodą. Model nie uczy się przewidywać konkretnych fałszywych wartości (są to losowe substytucje), ale uczy się z strukturalnych i kontekstowych wzorów, w jaki sposób imiona, e-maile i inne podmioty pojawiają się w tekście.

Schrems II i przepływy danych transgranicznych

Decyzja Schrems II (CJEU, 2020) unieważniła Tarczy Prywatności UE-USA, tworząc niepewność dla transferów danych z serwerów UE do USA. Praktyczny wpływ na naukę danych: dane szkoleniowe pochodzące z UE nie mogą być wysyłane do infrastruktury ML w USA (AWS US-East, GCP US-Central) bez odpowiednich zabezpieczeń transferu.

Odpowiednie zabezpieczenia obejmują:

  • Standardowe Klauzule Umowne (SCC) z oceną wpływu transferu
  • Wiążące Zasady Korporacyjne (BCR) dla transferów wewnątrzgrupowych
  • Wyjątek dla zanonimizowanych danych: Odpowiednio zanonimizowane dane nie są danymi osobowymi zgodnie z RODO i nie podlegają ograniczeniom transferu

Dla zespołów korzystających z infrastruktury ML w USA z danymi pochodzącymi z UE, odpowiednia anonimizacja całkowicie eliminuje problem Schrems II. Zanonimizowany zestaw danych nie jest już danymi osobowymi — może być transferowany, przechowywany i przetwarzany na dowolnej infrastrukturze bez wymagań dotyczących mechanizmu transferu.

Dokumentacja do zatwierdzenia DPO

Podczas składania zanonimizowanych danych szkoleniowych do zatwierdzenia przez DPO, dostarcz:

  1. Opis danych źródłowych: Jaki był pierwotny zestaw danych, jaki był cel jego zbierania, jakie kategorie danych osobowych zawierał?

  2. Konfiguracja anonimizacji: Jakie typy podmiotów zostały wykryte i zastąpione? Jaką metodę zastosowano?

  3. Metadane przetwarzania: Liczba podmiotów wykrytych na rekord, wyniki pewności wykrycia, całkowita liczba przetworzonych rekordów

  4. Ocena ryzyka resztkowego: Jaka jest prawdopodobieństwo, że jakakolwiek osoba mogłaby zostać ponownie zidentyfikowana na podstawie zanonimizowanego zestawu danych? Dla anonimizacji metodą Zastąp z zastosowaniem 285+ typów podmiotów do tekstu strukturalnego, to prawdopodobieństwo jest bardzo niskie dla większości zestawów danych do szkolenia.

  5. Zamierzony użytek: Jaki model ML będzie szkolony? Jaki jest cel szkolenia?

Metadane przetwarzania z przetwarzania wsadowego automatycznie dostarczają punkty 2-3. Punkty 1, 4 i 5 wymagają wkładu naukowca danych.

Wnioski

Dane do szkolenia ML zgodne z RODO są osiągalne bez ad-hoc skryptów, bez wielodniowych opóźnień inżynieryjnych i bez poświęcania użyteczności zestawu danych dla szkolenia modelu. Metoda anonimizacji Zastąp zachowuje naturalne właściwości językowe, które czynią dane użytecznymi do szkolenia modeli NLP, jednocześnie usuwając właściwości danych osobowych, które tworzą odpowiedzialność zgodności z RODO.

45 minut przetwarzania wsadowego to różnica między opóźniającym przeglądem zgodności a prostym zatwierdzeniem DPO.

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.