By · Last updated 2026-06-04

블로그로 돌아가기기술

재현 가능한 개인정보 보호: ML 학습 데이터 프리셋

ML 학습 데이터 익명화는 일관적이고 재현 가능해야 합니다. 데이터 과학자 A와 B가 서로 다른 엔티티 유형을 적용하면 학습 데이터셋의 신뢰성이 무너집니다.

June 4, 20266 분 읽기
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

재현 가능한 개인정보 보호: ML 팀에 문서가 아닌 프리셋이 필요한 이유

DPO가 익명화 계획을 승인했습니다. 네 가지 항목: 이름, 이메일, 전화번호, 생년월일. 방법은 Replace. 계획은 4페이지로 컴플라이언스 위키에 있습니다.

12명의 데이터 과학자가 킥오프에서 읽었습니다. 각자 도구를 직접 설정합니다. 일부는 국가 ID를 추가합니다. 일부는 IP 주소를 추가합니다. 일부는 Redact로 전환합니다. 3개월 후 데이터셋이 일관적이지 않습니다.

CNIL은 2024년에 여러 AI 기업을 점검했습니다. 문제: 모델 학습에 개인정보가 부적절하게 사용된 것. 익명화가 이루어졌는지만 묻지 않았습니다. 얼마나 일관적으로 적용되었는지도 물었습니다.

문서는 필요합니다. 하지만 충분하지 않습니다. 해결책은 프리셋입니다.

ML 학습 데이터에 별도 설정이 필요한 이유

학습 데이터 구축에는 고유한 요구 사항이 있습니다. 일반 문서 익명화는 이를 공유하지 않습니다.

Redact가 아닌 Replace. **[REDACTED]**로 이름이 대체된 텍스트로 학습된 모델은 그 토큰을 이름 위치 마커로 학습합니다. 이는 모델을 손상시킵니다. Replace는 "John Smith"를 "David Chen"으로 교체합니다. 모델이 실제 이름 패턴을 봅니다. 마스크 토큰을 보지 않습니다.

모든 기록에 동일한 프로세스. 70%의 이름이 대체되고 30%가 **[REDACTED]**인 데이터셋은 혼합된 신호를 보냅니다. 각 기록이 동일한 단계를 거쳐야 합니다.

동일한 엔티티 목록. 데이터셋에 건강 정보가 있을 때, 일부 기록에서 이름을 제거하고 생년월일을 남기면 공백이 생깁니다. 12명의 데이터 과학자 모두 동일한 유형을 제거해야 합니다.

과도한 제거 금지. 생년월일이 아닌 타임스탬프인 날짜를 제거하면 컴플라이언스 이득 없이 데이터셋 품질만 낮아집니다. 승인된 프리셋은 어떤 항목을 제거할지 정확히 명시합니다.

반복 가능한 출력. 데이터셋을 다시 실행해야 할 때 — 예를 들어 누락된 엔티티 유형이 발견된 후 — 프리셋이 매번 동일한 결과를 냅니다. 임시 설정은 그렇지 않습니다.

12인 데이터 과학자 문제

유럽의 핀테크 ML 팀이 고객 로그 데이터셋을 사용합니다. DPO가 목적 — 사기 탐지 — 을 하나의 규칙과 함께 승인했습니다: 모델 작업 전에 모든 고객 이름, 이메일, 전화번호, 결제 ID를 Replace 처리해야 합니다.

프리셋 없이:

  • 1번: 이름, 이메일, 전화번호 제거 — 결제 ID 누락
  • 2번: 결제 ID 포함하지만 Replace 대신 Redact 사용
  • 3번: 계획 문서를 정확히 따름
  • 4~12번: 다양하게 처리

병합된 데이터셋은 일부 비준수, 일부 과처리 상태입니다. DPO가 이를 인증할 수 없습니다.

DPO 승인 프리셋으로:

  • DPO가 정확한 엔티티 유형과 Replace 방법으로 "ML 개발 — 사기 탐지" 프리셋 생성
  • 하나의 규칙과 함께 12명 모두에게 프리셋 배포: 모든 데이터셋 작업에 이것을 사용
  • DPO 승인 없이 프리셋 변경 불가

이제 모든 사람이 동일한 결과를 생성합니다. 병합된 데이터셋이 일관적입니다. 연간 AI 감사에서 지적 사항 없이 통과됩니다. 이전 연도에는 비일관적인 데이터셋 작업으로 세 가지 지적이 있었습니다.

GDPR과 EU AI 법

2026년 기준 업데이트

EU AI 법이 2024년 8월에 전면 시행되었습니다. 모델 학습에 개인정보를 사용하는 AI 시스템에 대한 규칙을 추가합니다. 고위험 AI 시스템은 적용된 익명화를 포함하여 데이터셋을 문서화해야 합니다.

GDPR 제5조 제1항 b호 — 목적 제한 원칙 — 은 명확한 법적 근거나 익명화 없이 개인정보를 사용하는 것을 차단합니다. CNIL의 2024년 사례는 이 공백에 집중했습니다: 한 서비스를 위해 수집된 정보가 유효한 근거나 익명화 없이 모델 학습에 사용된 것.

프리셋은 두 규정 세트를 모두 충족하는 데 도움이 됩니다:

  • 프리셋 이름과 설정: 문서화된 방법
  • 처리 로그: 방법이 적용된 증거
  • DPO 승인: 설정에 대한 기록된 승인

이것이 두 법이 요구하는 감사 추적을 만듭니다. Article 10 의무 상세 내용은 EU AI 법 학습 데이터 가이드를 참조하세요.

NLP 모델 데이터셋을 위한 프리셋 설정

대부분의 NLP 모델 데이터셋에 포함할 유형:

  • PERSON — 유사한 이름으로 Replace
  • EMAIL_ADDRESS — 합성 주소로 Replace
  • PHONE_NUMBER — 합성 번호로 Replace
  • CREDIT_CARD / IBAN — Replace 또는 Redact
  • LOCATION — 위치가 중요하면 유사한 장소로 Replace; 중요하지 않으면 Redact
  • DATE_OF_BIRTH — Redact; 연령 그룹화가 종종 필요

흔히 제외하는 유형:

  • 일반 날짜 — 타임스탬프는 시간적 모델에 도움
  • 조직명 — 개체명 인식 모델에 도움
  • URL — 링크 및 참조 모델에 도움

ML 리더와 DPO가 승인된 프리셋에서 이 규칙을 설정합니다. 팀원들은 이를 적용합니다. 설정 선택은 하지 않습니다.

기관 지식으로서의 프리셋

프리셋 전. 올바른 엔티티 설정은 세 명의 데이터 과학자 머릿속에 있었습니다. 그들이 컴플라이언스 검토를 거쳤습니다. 두 명이 3분기에 퇴사했습니다. 지식도 함께 사라졌습니다.

프리셋 후. 설정은 "ML 개발 — 고객 기록 v2.1"에 있습니다. 버전 로그는 언제 만들어졌는지, 누가 승인했는지, v2.0에서 무엇이 변경되었는지를 보여줍니다. 신입 팀원은 프리셋을 사용하고 그 안에 담긴 모든 지식을 전달받습니다.

버전 2.1은 검토에서 누락된 IBAN 탐지를 발견한 후 추가되었습니다. 버전 2.0은 2025년 2월에 승인되었습니다. 기록이 완전합니다.

처리 로그와 DPO 검토 흐름 작동 방식은 GDPR ML 학습 익명화 가이드를 참조하세요.

프리셋 vs. CNIL 패턴

CNIL의 2024년 AI 사례는 명확한 패턴을 설정했습니다. 무엇이 제거되었는지뿐 아니라 어떻게 관리되었는지를 묻습니다. DPO 승인 기록과 처리 로그가 있는 공유 프리셋이 이에 직접 답합니다.

임시 설정은 그렇지 않습니다. CNIL 논리를 따르는 다른 EU DPA 사례에도 동일한 공백이 있습니다. CNIL AI 접근 방식에 대한 자세한 내용은 CNIL 프랑스 GDPR AI 컴플라이언스 가이드를 참조하세요.

결론

문서는 팀원에게 무엇을 해야 하는지 알려줍니다. 프리셋은 매번 동일한 방식으로 실행하기 쉽고 — 강제하기 쉽게 만듭니다.

ML 학습 데이터의 경우 일관성은 법적 요건이자 기술적 요건입니다. 프리셋은 두 가지를 동시에 충족합니다.

AI 관행을 살펴보는 DPA는 균일한 익명화의 증거를 원합니다. 모든 데이터셋 작업에 동일하게 적용된 프리셋이 제출할 수 있는 가장 명확한 증거입니다.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.