블로그로 돌아가기GDPR 및 준수

GDPR 및 레거시 문서 보관소: 80,000개의 스캔된 문서를 건드릴 수 없다고 생각하는...

GDPR의 삭제 권리는 '형식에 관계없이' 개인 데이터에 적용됩니다. 종이 보관소의 이미지 기반 PDF는 예외가 아닙니다. OCR 기반 PII 감지가 레거시 문서 격차를 해결합니다.

April 21, 20267 분 읽기
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

아무도 이야기하지 않는 레거시 보관소 문제

GDPR 규정 준수 감사를 수행하는 조직은 자주 동일한 숨겨진 위험 범주를 발견합니다: 디지털화 프로그램이 구현되기 전에 종이 보관소에서 스캔한 이미지 기반 PDF 보관소.

법률 회사는 20년 분량의 스캔된 클라이언트 파일을 가지고 있습니다. 의료 제공자는 수십 년의 스캔된 환자 접수 양식을 가지고 있습니다. 정부 기관은 스캔된 역사적 기록을 가지고 있습니다. 은행은 이미지 처리된 대출 신청 및 계정 문서를 가지고 있습니다.

이러한 보관소는 공통 특성을 가지고 있습니다:

형식: 모두 이미지 기반 PDF(텍스트 추출 불가, OCR 필요) 규모: 10,000 ~ 500,000 문서 보유: 20-40년, GDPR 적용 전 현재 상태: 대부분 검토되지 않은 상태로 유지됨

GDPR의 "형식에 관계없이" 언어

GDPR Article 17 ("삭제할 권리")은 다음을 명시합니다:

"데이터 주체는 컨트롤러로부터 그들과 관련된 개인 데이터를 삭제하도록 요청할 수 있으며, 컨트롤러는 지체 없이 그러한 데이터를 삭제할 의무가 있습니다... 저장 형식과 무관하게."

이 언어는 명확합니다: 이미지 기반 스캔은 예외가 아닙니다. 데이터 주체가 자신의 데이터 삭제를 요청하고, 그 데이터가 레거시 스캔된 문서 보관소에 있으면, 조직은 그것을 찾아서 삭제해야 합니다.

레거시 스캔 보관소의 기술적 과제

이미지 기반 PDF 처리는 현대 텍스트 기반 문서 처리와 다릅니다:

OCR의 필요성: 이미지에서 텍스트를 추출하려면 광학 문자 인식이 필요합니다. OCR은 완벽하지 않습니다. 손글씨, 오래된 타자기 글꼴 또는 낮은 품질 스캔은 높은 오류율을 생성합니다.

OCR 결과의 신뢰성: 레거시 스캔에서 발생한 OCR은 종종 70-85% 정확도입니다. 이는 10페이지 문서에서 1-3페이지의 오류를 의미합니다. OCR 오류는 PII 감지 오류로 번역됩니다.

형식 손상: 이미지의 텍스트는 종종 왜곡, 회전 또는 부분적으로 가려져 있습니다. 자동 전처리(회전 수정, 기울기 수정, 명도 정규화)가 필요하지만, 저하된 이미지는 여전히 어려울 수 있습니다.

수동 검토 비용: 스캔된 문서 80,000개를 수동으로 검토하는 것은 현실적이지 않습니다. 각 문서에서 2분만 소비해도 2,667시간 또는 약 1.3 FTE-년입니다.

OCR + PII 감지 + 수동 샘플링 접근

실질적인 접근:

단계 1: 배치 OCR

  • 80,000 문서를 배치로 처리(OpenAI Vision, AWS Textract, Google Document AI 또는 Tesseract)
  • 각 문서에서 OCR 텍스트 추출
  • 각 OCR 결과에 신뢰도 점수 태깅(Textract의 "신뢰도" 필드)
  • 신뢰도 < 50%인 문서 플래그(수동 검토 필요)

단계 2: OCR 텍스트에서 PII 감지

  • 추출된 텍스트에서 NLP 기반 PII 감지 실행
  • PII가 포함된 문서를 플래그
  • 감지된 PII 유형 기록(이름, SSN, 의료 정보 등)

단계 3: 수동 샘플링 검증

  • 신뢰도 그룹별로 샘플
    • 신뢰도 90-100%: 100개 샘플
    • 신뢰도 70-90%: 500개 샘플
    • 신뢰도 50-70%: 1,000개 샘플
    • 신뢰도 < 50%: 100% 수동 검토 (또는 완전 삭제)
  • OCR 정확도 & PII 감지 정확도 검증
  • 조정 필요 여부 결정

단계 4: 삭제 또는 익명화

  • 신뢰도 기반 결정:
    • 높음(90-100%): 자동 PII 감지 결과를 신뢰, 감지된 영역 제거
    • 중간(70-90%): 감지된 영역 수동 검토 후 제거
    • 낮음(< 70%): 전체 문서 수동 검토 또는 완전 삭제
  • 삭제된 영역을 검은색 처리(시각적으로 제거됨) 및 OCR 처리(기본 텍스트도 제거됨)

비용 시뮬레이션

80,000개 문서 보관소의 경우:

자동 처리:

  • OCR: $0.04 ~ 0.10 / 문서 = $3,200-8,000
  • PII 감지: $0.01 / 문서 = $800
  • 자동 처리 총합: $4,000-8,800

수동 검증:

  • 신뢰도 샘플: 1,600개 문서 × 5분 = 133시간 × $50/hr = $6,650
  • 낮은 신뢰도 전체 검토 (가정: 5% = 4,000 문서) × 3분 = 200시간 × $50/hr = $10,000

총 프로젝트 비용: $20,650-25,450

이것은 불합리합니다. 시간과 비용을 절약하려면:

  1. 비용 효율적인 OCR 선택: Tesseract (오픈 소스, 자체 호스팅) 또는 AWS Textract (저가, 자동 신뢰도 점수)
  2. 샘플 크기 최소화: 통계적으로 의미 있는 최소(카테고리당 100-300개)
  3. 높은 신뢰도 충분히 신뢰: 90% 이상의 문서는 수동 검증 없이 자동 처리 가능
  4. 배치 처리 자동화: 야간 처리, 비용 최소화

낮은 신뢰도 문서(< 50%)의 경우, 가장 간단한 접근은 의심 문제입니다: 보관소가 GDPR 적용 전의 "레거시" 데이터인 경우, 개인 데이터 주체를 식별할 수 없는 문서는 비식별화되었을 수 있습니다. 완전한 삭제가 유지할 것보다 더 간단할 수 있습니다.

GDPR 기여하는 요인 분석

조직이 레거시 스캔 보관소를 "GDPR 준수"로 선언하기 위해:

  1. 비즈니스 검토: 어떤 데이터가 필요한가? 몇 년이 법정 보유 기간인가?
  2. 보관소 구분: 식별 가능한 데이터가 있는 문서 vs. 비-PII 또는 충분히 익명화된 문서
  3. 기술 방안: OCR + 감지 + 수동 샘플링 (식별 가능한 데이터)
  4. 삭제 또는 익명화: 필요한 것 보관, 나머지 삭제 또는 익명화
  5. 문서화: 방법론, 샘플 크기, 신뢰도 수준 기록

이것은 규정 준수입니다. "레거시 데이터이므로 GDPR이 적용되지 않습니다"는 아닙니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.