카운트다운이 시작됐습니다
2026년 업데이트 반영
EU AI법 시행 기한은 현실입니다. 제10조 규정은 2026년 8월 2일부터 적용됩니다. 고위험 AI 시스템을 개발하거나 운영하는 팀이라면 지금 당장 행동해야 합니다. 시간이 없습니다.
제재 수위는 GDPR을 초과합니다. 최대 제재금은 **€3,500만 또는 전 세계 연간 매출액의 7%**입니다. GDPR은 €2,000만 또는 4%로 제한되어 있습니다. 이보다 높은 제재금을 규정한 AI 법률은 없습니다.
어떤 AI 시스템이 고위험에 해당하나요?
AI법은 시스템을 위험도에 따라 분류합니다. 고위험 시스템(부속서 III)은 다음 분야에 사용되는 AI를 포함합니다:
- 교육 — 학교 입학 또는 학생 평가
- 고용 — 이력서 심사, 면접 점수, 근로자 모니터링
- 핵심 서비스 — 신용 평가, 보험료 책정, 긴급 출동
- 법 집행 — 범죄 예측, 생체 인식 신원 확인
- 의료 — 의료기기 소프트웨어, 환자 분류
- 인프라 — 에너지, 수자원, 교통 관리
- 사법 — 법률 조사 도구, 양형 도구
이 중 하나라도 해당된다면 제10조 적용 대상입니다.
제10조: 네 가지 핵심 규정
제10조는 고위험 AI 시스템에 사용되는 데이터셋에 관한 규정을 정합니다. 핵심 규정 네 가지를 정리했습니다.
1. 문서화된 거버넌스
데이터셋은 "적절한 데이터 거버넌스 및 관리 관행"을 따라야 합니다. 수집, 품질 검토, 지속적 점검에 관한 절차를 문서로 작성해야 합니다.
2. 편향성 검사
불공정한 결과를 초래할 수 있는 "가능한 편향"을 파악하기 위해 기록을 검토해야 합니다. 능동적 검사가 요구됩니다. 의도적 편향을 피하는 것만으로는 충분하지 않습니다.
3. 정확성 및 대표성
데이터셋은 "관련성이 있고 충분히 대표적이며 오류가 없어야" 합니다. 특정 집단을 누락한 웹 크롤링 데이터는 이 기준을 충족하지 못할 수 있습니다.
4. 특수 기록 유형
제10조 제5항은 가장 직접적인 규정입니다. 고위험 시스템이 특수 범주 기록—건강, 인종, 종교, 정치, 생체 정보—을 사용하는 경우, 편향성 검사에 "엄격히 필요한" 경우에만 처리할 수 있습니다. 또한 "적절한 보호 장치"를 적용해야 합니다. 데이터 스크러빙은 가장 강력한 보호 장치 중 하나입니다.
핵심 결론: 대부분의 AI 모델 데이터셋에는 개인 기록이 포함되어 있습니다. 제10조는 강력한 기술적 보호 장치와 함께 필요 최소한의 데이터만 사용하도록 규정합니다.
자세한 내용은 법적 준수 페이지와 보안 개요를 참조하세요.
제재 수준
EU AI법은 세 단계의 제재 구조를 갖추고 있습니다. 동일한 위반 유형에 대해 GDPR보다 모두 높습니다:
| 규정 | 최대 제재금 | 매출액 기준 |
|---|---|---|
| GDPR | €2,000만 | 전 세계 매출액의 4% |
| EU AI법 (고위험) | €1,500만 | 전 세계 매출액의 3% |
| EU AI법 (금지) | €3,500만 | 전 세계 매출액의 7% |
데이터셋 위반은 고위험 단계(€1,500만 / 3%)에 해당합니다. 규제 기관이 보호 장치 없이 개인 기록을 사용하는 행위를 금지 행위로 판단할 경우 최고 단계가 적용됩니다.
실제 사례: 매출액 €5억에서 3% = €1,500만 제재금. 매출액 €50억에서 3% = €1억 5,000만 제재금. 이론이 아닌 실제 수치입니다.
데이터 스크러빙이 해결책인 이유
적절히 스크러빙된 기록은 GDPR 적용 범위를 벗어납니다. 이는 제10조의 부담 대부분을 제거합니다.
까다로운 규정—특수 범주 처리, 편향성 검사, 정보 주체 권리—은 데이터셋에 개인 기록이 있는 경우에만 적용됩니다. 해당 기록을 먼저 제거하면 부담이 대부분 사라집니다.
CNIL(프랑스 데이터 감독 기관)은 2026년 초에 이를 명확히 밝혔습니다. CNIL의 AI 지침은 다음과 같이 명시합니다: 모델 성능에 필요하지 않은 개인 기록의 데이터 스크러빙이 제10조의 핵심 기술적 조치라고요.
이는 소수 의견이 아닙니다. EU 최고 AI 규제 기관의 주류 입장입니다.
실무에서의 데이터 스크러빙
AI 모델 데이터셋 스크러빙은 운영 중인 프로덕션 기록 스크러빙과 다릅니다. 모델 데이터셋에는 다음이 포함될 수 있습니다:
- PII가 포함된 문서 — 계약서, 이메일, 보고서, 지원 티켓
- 정형 기록 — 예측 모델 구축에 사용된 고객 테이블
- 레이블링된 콘텐츠 — 개인정보가 포함된 주석이 달린 이미지 또는 텍스트
- 합성 기록 — 생성 과정에서 개인 패턴이 보존될 수 있는 데이터
이 모든 형식에서 PII를 탐지해야 합니다. 하나의 유형을 놓치면 전체 데이터셋이 위험에 노출됩니다. 이름은 제거했지만 전체 주소가 그대로인 계약서는 모델이 위치와 인구통계 패턴을 연결하도록 학습시킵니다.
anonym.legal API는 대규모 AI 데이터셋의 일괄 처리를 지원합니다. 48개 언어에서 285개 이상의 엔터티 유형을 탐지합니다. 다국어 데이터셋을 보유한 유럽 AI 기업의 경우 교차 언어 커버리지가 매우 중요합니다. 특정 언어에 공백이 생기면 전체 시스템에 EU AI법 위반 리스크가 발생합니다.
엔터티 탐지에 대한 자세한 내용은 토큰 시스템 가이드와 엔터티 유형 레퍼런스를 참조하세요.
실용 가이드: 데이터셋 스크러빙 절차
1단계: 먼저 감사를 진행하세요
스크러빙을 시작하기 전에 탐지 검사를 실행하세요. 어떤 PII가 있는지 파악할 수 있습니다:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
응답에는 탐지된 모든 엔터티의 유형, 위치, 신뢰도가 나열됩니다. 모든 파일에 걸쳐 실행하여 작업을 시작하기 전에 전체 범위를 파악하세요.
2단계: 일괄 스크러빙
대규모 데이터셋의 경우 배치 엔드포인트를 사용하여 여러 파일을 한 번에 처리하세요:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"완료: {result['id']} — {len(result['items'])}개 엔터티 제거")
3단계: 기록을 보관하세요
제10조는 수행한 작업에 대한 문서화를 요구합니다. 각 데이터셋에 대해 다음을 기록하세요:
- 사용한 탐지 모델 및 버전
- 탐지된 엔터티 유형과 각각의 대체 방식
- 데이터셋별 제거된 엔터티 수
- 스크러빙 날짜와 사용된 데이터셋 버전
이는 제10조 제2항 제(a)호의 "데이터 거버넌스 및 관리 관행" 요건을 충족합니다.
자주 묻는 질문
스크러빙이 모델 품질을 저하시키나요?
대부분의 경우 그렇지 않습니다. 모델은 개인 세부 정보가 아닌 텍스트 구조의 패턴을 학습합니다. 이름, 전화번호, 주소를 [이름] 또는 [전화번호]와 같은 플레이스홀더로 대체해도 모델은 동일한 패턴을 학습합니다. 많은 연구팀이 스크러빙된 데이터셋으로 동등한 품질의 모델을 개발했음을 확인했습니다. 핵심은 모델이 명확한 패턴을 인식할 수 있도록 일관된 플레이스홀더를 사용하는 것입니다.
데이터셋이 매우 큰 경우에는 어떻게 하나요?
배치 API를 사용하세요. 대용량 데이터를 병렬로 처리합니다. 요금 페이지에서 대용량 사용 사례에 맞는 플랜을 확인할 수 있습니다. 많은 팀이 매월 수백만 건의 기록을 처리하고 있습니다.
영어가 아닌 데이터셋은 어떻게 처리하나요?
API는 48개 언어를 지원합니다. 각 언어는 해당 언어로 훈련된 탐지 모델을 사용합니다. 독일어, 프랑스어, 스페인어, 일본어 등 다양한 언어가 모두 지원됩니다. 전체 언어 목록은 FAQ를 참조하세요. 혼합 언어 데이터셋도 지원됩니다—배치 요청에서 문서별로 언어를 지정할 수 있습니다.
콜로라도 AI법: 두 개의 기한
콜로라도 AI법은 2026년 6월 30일에 발효됩니다—EU 기한보다 5주 앞섭니다. 주 법률에 따라 "고위험 AI 시스템"에 유사한 규정을 적용합니다. 주요 초점은 편향성과 차별 방지입니다.
EU와 콜로라도 양쪽 모두에 해당하는 팀은 두 가지 기한을 동시에 충족해야 합니다. 데이터셋을 스크러빙하면 두 법률—EU의 제10조와 콜로라도의 편향성 방지 규정—을 모두 준수하는 데 도움이 됩니다. 기술적 절차는 동일합니다.
지금 행동하세요
오늘 시작한다면 5개월은 충분한 시간입니다. 6월까지 기다리면 부족합니다.
실용적인 일정표:
- 1~2주차: 데이터셋 감사—어떤 개인 기록이 있는지 파악
- 3~6주차: 스크러빙 파이프라인 구축 및 테스트
- 7~10주차: 거버넌스 문서 작성 및 법적 검토 진행
- 11~16주차: 검증—스크러빙된 데이터셋이 제10조 품질 기준을 충족하는지 확인
- 8월 2일: 시행일—준수 관행 완비
anonym.legal API는 대규모 변경 없이 기존 파이프라인에 통합됩니다. 대용량 플랜은 요금 페이지에서 확인하세요. 자주 묻는 제10조 관련 질문은 FAQ를 참조하세요.
GDPR과 제10조가 겹치는 기록에는 GDPR 준수 체크리스트를 활용하세요.
EU AI법 시행 준비는 완료됐습니다. 귀 조직은 8월 2일까지 준비될 것인가요?
한계 및 미해결 과제
AI법 준수를 위한 데이터 스크러빙은 아직 발전 중인 분야입니다. 주요 미해결 과제를 정리했습니다.
기준치가 정의되지 않았습니다. EU AI법은 어느 수준의 스크러빙이 "충분한지" 명시하지 않습니다. 유럽 AI 사무국이 지침을 발표할 때까지는 법적 불확실성이 남습니다. 귀사의 방법이 규제 기관을 만족시킬지 알 수 없을 수 있습니다.
재식별 위험은 여전히 존재합니다. 연구에 따르면 대규모 언어 모델은 데이터셋의 내용을 암기하고 재현할 수 있습니다. 모델 개발 전에 스크러빙 기준을 통과한 기록도 여전히 추출 가능할 수 있습니다. 개발 전 스크러빙이 이 문제를 완전히 해결하지는 않습니다.
합성 기록의 한계가 있습니다. 합성 생성은 통계적 패턴을 유지하지만 미묘한 편향을 추가하거나 드문 엣지 케이스를 놓칠 수 있습니다. 합성 콘텐츠만으로 구축된 모델은 실제 입력에서 성능이 저하될 수 있습니다.
제10조의 해석이 진행 중입니다. "적절한 기술적 조치"라는 표현에는 해석이 필요합니다. EU 회원국 전반에 걸친 초기 DPA 작업에서는 아직 명확한 기준이 확립되지 않았습니다. 2026년 내내 EDPB 지침과 회원국 결정을 주시하세요.
출처
- EU AI법, 규정(EU) 2024/1689, 제9조–제17조 (고위험 AI 의무), OJ L 2024/1689
- EU AI법 제10조 — 데이터 및 데이터 거버넌스
- CNIL AI 데이터셋 지침, 2026년 1월
- 콜로라도 AI법, SB 205, 2026년 6월 30일 시행
- EU AI법 시행 일정: 금지 관행 2025년 2월 2일; 고위험 시스템 2026년 8월 2일