재현 가능한 프라이버시: ML 팀이 문서화뿐만 아니라 구성 프리셋이 필요한 이유
DPO는 익명화 절차 문서를 승인했습니다. 이 문서에서는 Replace 방법을 사용하여 훈련 데이터 세트에서 이름, 이메일, 전화번호 및 생년월일을 제거하도록 명시하고 있습니다. 문서는 4페이지 분량이며, 컴플라이언스 위키에 저장되어 있습니다.
12명의 데이터 과학자가 프로젝트 시작 시 이를 참고합니다. 그들은 익명화 도구의 자신만의 버전을 구성합니다. 일부는 국가 ID를 추가하고, 일부는 IP 주소를 포함하며, 일부는 Replace 대신 Redact를 사용합니다. 3개월 후, 훈련 데이터 세트는 일관성이 없습니다.
CNIL(프랑스의 DPA)은 2024년에 여러 AI 회사들이 훈련 데이터 세트에서 개인 데이터를 부적절하게 사용한 것에 대해 조사했습니다. 이 조사는 단순히 익명화가 이루어졌는지 여부뿐만 아니라 얼마나 일관되게 적용되었는지를 조사했습니다.
문서화는 필요하지만 충분하지 않습니다. 기술적 솔루션은 프리셋입니다.
ML 훈련 데이터가 특정 구성을 요구하는 이유
ML 훈련 데이터 익명화에는 일반 문서 익명화와는 다른 요구 사항이 있습니다:
Redact가 아닌 Replace: 이름이 [REDACTED] 토큰으로 대체된 텍스트에서 훈련된 신경 언어 모델은 **[REDACTED]**가 이름 위치에 나타나는 특별한 식별자라는 것을 학습합니다. 이는 바람직하지 않은 모델 동작을 초래합니다. Replace 방법(예: "John Smith"를 "David Chen"으로 대체)은 식별 정보를 제거하면서 텍스트에서 이름의 통계적 분포를 보존합니다. 모델은 마스크 토큰이 아닌 현실적인 이름 위치 분포에서 학습합니다.
데이터 세트 전반의 일관성: 이름의 70%가 대체되고 30%가 **[REDACTED]**인 훈련 데이터 세트는 일관성 없는 훈련 신호를 생성합니다. 모든 기록은 동일하게 처리되어야 합니다.
일관된 엔티티 선택: 훈련 데이터 세트에 건강 데이터가 포함되어 있다면, 일부 기록에서 이름은 제거하되 생년월일은 제거하지 않으면 일관성이 결여됩니다. 모든 12명의 데이터 과학자는 동일한 엔티티 유형 세트를 제거해야 합니다.
과도한 익명화 금지: Replace 방법이 과도하게 적용되어 단순한 타임스탬프인 날짜를 제거하면 데이터 세트의 유용성이 저하되고 컴플라이언스가 개선되지 않습니다. 승인된 프리셋은 제거할 날짜 엔티티를 정확히 정의합니다(생년월일, 일반 타임스탬프 아님).
실행 간 재현 가능성: 동일한 데이터 세트를 다시 처리해야 할 경우(예: 누락된 엔티티 유형을 감지한 후), 동일한 프리셋으로 재처리하면 일관된 출력을 생성합니다. 임시 구성은 재현할 수 없습니다.
12명의 데이터 과학자 문제
유럽의 핀테크 회사의 ML 팀은 고객 상호작용 로그에서 파생된 훈련 데이터 세트를 사용합니다. DPO는 모델 훈련(사기 탐지)을 위한 처리 목적을 승인했으며, 조건으로 모든 고객 이름, 이메일, 전화번호 및 결제 식별자는 모델 훈련 전에 Replace 방법을 사용하여 대체해야 합니다.
프리셋 없이:
- 데이터 과학자 1은 이름, 이메일, 전화번호를 제거하지만 결제 식별자는 포함하지 않음
- 데이터 과학자 2는 결제 식별자를 포함하지만 Replace 대신 Redact를 사용함
- 데이터 과학자 3은 절차 문서를 정확히 따름
- 데이터 과학자 4-12는 다양함
결과: 12개의 서로 다르게 처리된 훈련 데이터 버전. 병합된 데이터 세트는 부분적으로 비준수이며, 부분적으로 과도하게 익명화되고 통계적으로 일관성이 없습니다.
DPO 승인 프리셋 사용 시:
- DPO는 정확한 엔티티 유형과 Replace 방법을 가진 "ML Training — Fraud Detection" 프리셋을 생성함
- 모든 12명의 데이터 과학자와 "모든 훈련 데이터 준비를 위해 이 프리셋을 사용하세요"라는 지침과 함께 프리셋을 공유함
- DPO 검토 없이 프리셋을 수정할 수 없음(구성 접근 제어)
결과: 모든 12명의 데이터 과학자가 동일한 익명화 출력을 생성함. 병합된 데이터 세트는 일관성이 있습니다. 연간 AI 컴플라이언스 감사는 발견 사항 없이 통과합니다.
이전 연도: 일관성 없는 ML 훈련 데이터 익명화와 관련된 3건의 발견. 프리셋 이후: 0건의 발견.
GDPR AI 법안의 교차점
EU AI 법안(2024년 8월 발효)은 개인 데이터를 훈련에 사용하는 AI 시스템에 대한 컴플라이언스 요구 사항을 추가합니다. 고위험 AI 시스템은 적용된 익명화 조치를 포함하여 훈련 데이터를 문서화해야 합니다.
GDPR의 목적 제한 원칙(제5조(1)(b))은 특정 법적 근거 없이 ML 훈련을 위한 개인 데이터 사용을 제한합니다. CNIL의 2024년 AI 회사에 대한 집행 조치는 이 교차점에 초점을 맞추었습니다: 서비스 제공을 위해 수집된 개인 데이터가 적절한 법적 근거나 익명화 없이 훈련에 사용되는 경우입니다.
GDPR과 AI 법안 모두의 문서화 요구 사항은 훈련 데이터 익명화 프로세스가 기술적으로 프리셋을 통해 시행될 때 더 쉽게 충족됩니다:
- 프리셋 이름 및 구성: 문서화된 익명화 방법론
- 처리 로그: 특정 데이터 세트에 방법론이 적용되었음을 증명하는 증거
- DPO 승인: 프리셋 구성을 승인하는 기록된 결정
이는 두 규정이 요구하는 감사 추적을 생성합니다.
ML 훈련 데이터에 대한 프리셋 구성
대부분의 NLP 훈련 데이터에 대한 엔티티 유형:
- PERSON (이름 — 유사한 이름으로 대체)
- EMAIL_ADDRESS (합성 이메일로 대체)
- PHONE_NUMBER (합성 전화번호로 대체)
- CREDIT_CARD / IBAN (대체 또는 Redact — 결제 데이터)
- LOCATION (모델에 geo가 필요한 경우 유사한 위치로 대체; 필요하지 않으면 Redact)
- DATE_OF_BIRTH (Redact — 나이 일반화가 종종 필요함)
NLP 훈련 데이터에 일반적으로 포함되지 않는 엔티티 유형:
- 일반 날짜(생년월일 아님) — 타임스탬프와 텍스트의 날짜는 종종 시간 모델링에 필요함
- 조직 이름 — 엔티티 인식 훈련에 종종 필요함
- URLs — 링크 및 참조 추출에 종종 필요함
ML 리드와 DPO는 승인된 프리셋에서 이러한 구분을 정의합니다. 개별 데이터 과학자는 이러한 결정을 내리지 않으며, 프리셋을 적용합니다.
기관 지식 및 프리셋 버전 관리
프리셋은 기관 기억 기능을 수행합니다:
프리셋 이전: ML 훈련 데이터에 대한 올바른 엔티티 구성은 컴플라이언스 검토 프로세스를 거친 세 명의 데이터 과학자의 마음속에 있었습니다. 그 중 두 명이 Q3에 떠나면서 기관 지식이 상실되었습니다.
프리셋 이후: 구성은 "ML Training — Customer Data v2.1"에 인코딩됩니다. 버전 기록은 언제 생성되었는지, 누가 승인했는지, v2.0과 v2.1 사이에 무엇이 변경되었는지를 보여줍니다. 새로운 데이터 과학자는 프리셋을 사용하고 그 안에 내재된 기관 지식을 상속받습니다.
버전 2.1은 컴플라이언스 검토에서 누락된 IBAN 감지를 추가했습니다. 버전 2.0 기록은 2025년 2월에 승인되었음을 보여줍니다. 감사 추적이 완전합니다.
결론
문서화는 팀원들에게 무엇을 해야 하는지를 알려줍니다. 프리셋은 이를 일관되게 수행하는 것을 기술적으로 쉽게 — 그리고 기술적으로 시행 가능하게 — 만듭니다.
특히 ML 훈련 데이터의 경우, 일관성은 컴플라이언스 요구 사항(GDPR, AI 법안)과 기술적 요구 사항(모델 훈련에는 일관된 전처리가 필요함) 모두입니다. 프리셋은 두 가지를 동시에 충족합니다.
AI 훈련 데이터 관행을 조사하는 CNIL 및 기타 DPA는 체계적이고 일관된 익명화의 증거를 찾을 것입니다. 모든 훈련 데이터 준비에 균일하게 적용된 프리셋은 가장 강력한 증거입니다.
출처: