GDPR과 레거시 스캔 파일: PII를 위한 OCR

2026년 업데이트

GDPR 감사에서는 동일한 숨겨진 위험이 반복적으로 발견됩니다. 바로 오래된 이미지 기반 PDF 아카이브입니다.

로펌은 20년치 스캔된 고객 파일을 보유합니다. 병원은 수십 년치 환자 양식을 보관합니다. 정부 기관은 스캔된 기록을 저장합니다. 은행은 이미지화된 대출 파일을 보유합니다.

이러한 아카이브에는 공통적인 특성이 있습니다. 파일이 래스터 이미지 — 스캔된 PDF, TIFF 또는 JPEG — 입니다. 텍스트 레이어가 없습니다. 표준 PII 도구는 이를 읽을 수 없습니다. 대부분의 익명화 도구에서 이러한 파일은 존재하지 않는 것과 같습니다.

일반적인 믿음: "이것들은 이미지 파일이니까 GDPR이 적용되지 않는다."

GDPR 제17조 제1항은 삭제권을 부여합니다. 전문 26항은 익명화가 개인정보를 적용 범위에서 제거한다고 규정합니다. 이미지 형식에 대한 예외를 두는 조항은 어디에도 없습니다. 15년 전 고객 파일에 대한 삭제 요청을 이행할 수 없는 로펌은 컴플라이언스 공백을 갖고 있습니다. 예외 조항이 있는 것이 아닙니다.

GDPR 지원 방식에 대해서는 컴플라이언스 개요 및 보안 관행을 참조하십시오.

탐지 파이프라인의 작동 방식

프로세스는 세 단계로 실행됩니다.

1단계 — OCR

OCR 엔진이 이미지를 읽고 텍스트를 추출합니다. 각 단어의 위치를 기록합니다. 출력은 좌표가 포함된 기계 판독 가능 텍스트입니다. 손글씨, 희미한 잉크 또는 오래된 서체가 있으면 정확도가 떨어집니다.

2단계 — NLP 엔터티 탐지

개체명 인식(NER)이 OCR 텍스트를 스캔합니다. 인물명, 기관, 위치를 찾습니다. 패턴 매칭으로 SSN, 전화번호, 계정 번호를 추가합니다. 각 발견에 신뢰도 점수가 부여됩니다.

3단계 — 익명화

감지된 엔터티가 텍스트 출력에서 교체됩니다. 원본 이미지는 변경되지 않습니다. 이미지 변경에는 별도의 비식별화 도구가 필요합니다. 익명화된 텍스트는 삭제 요청, DSAR 응답, 컴플라이언스 기록을 지원합니다.

최신 OCR 엔진은 깨끗한 인쇄 페이지에서 98~~99%의 문자 정확도를 달성합니다. 손글씨 또는 품질이 떨어지는 스캔의 경우 85~~92%로 떨어집니다. 엔터티 수준 정확도는 문자 수준 정확도보다 높은 경향이 있습니다. 몇 글자가 틀려도 이름을 식별할 수 있습니다.

실용적인 관점: OCR 정확도는 찾아내는 엔터티 수에 영향을 미칩니다. 방법이 작동하는지 여부를 결정하지는 않습니다. 90% 정확도에서도 대부분의 이름과 번호를 찾을 수 있습니다. 품질 등급이 여전히 필요합니다. 방법 자체는 유효합니다.

대규모 아카이브 처리

대규모 레거시 아카이브는 4단계 워크플로를 따릅니다.

1단계 — 목록 작성: 모든 이미지 기반 아카이브를 나열합니다. 소스 시스템과 날짜 범위를 기록합니다. 삭제 위험이 높은 기록을 우선적으로 처리합니다. 고객 대면 파일이 내부 파일보다 먼저입니다.

2단계 — 배치 처리: OCR과 PII 탐지를 배치로 실행합니다. 배치당 5,000~10,000개 파일이 일반적인 크기입니다. 처리는 야간에 실행됩니다. 출력은 각 파일에 대한 PII 보고서와 익명화된 텍스트 추출물입니다.

3단계 — 삭제 이행: 정보주체가 이름과 기간과 함께 요청을 보냅니다. 익명화된 추출물에서 해당 토큰을 검색합니다. 파일을 찾아 비식별화합니다. 조치를 기록합니다.

4단계 — 지속적 컴플라이언스: 새로 스캔된 파일을 아카이브하기 전에 동일한 파이프라인을 통과시킵니다. PII 보고서를 제30조 처리 활동 기록(RoPA) 증거로 유지합니다.

사례 연구: 로펌 아카이브

한 로펌 감사에서 1998년부터 2010년까지 스캔된 고객 계약서 80,000개의 이미지 기반 PDF가 발견되었습니다. 표준 PII 도구는 탐지 건수가 0이었습니다. 이미지 형식은 보이지 않았습니다.

이전 12개월 동안 15명의 전 고객이 삭제 요청을 제출했습니다. 회사는 "귀하의 기록이 삭제되었음을 확인할 수 없습니다"라고 답했습니다. 이 답변은 GDPR 제17조를 충족하지 않습니다.

회사가 취한 조치:

5,000개 배치로 80,000개 파일 전체에 OCR 및 PII 탐지 실행
처리에 약 3주 소요
결과: 파일별 보고서가 포함된 80,000개의 익명화된 텍스트 추출물
엔터티와 파일 ID를 연결하는 검색 가능한 색인 구축

처리 후:

한 정보주체에 대한 파일 찾기: 평균 4분
요청당 파일 수: 평균 6~8개
요청당 비식별화 시간: 20~30분

15건의 미처리 요청이 모두 30일 이내에 해결되었습니다.

핵심 사항: 컴플라이언스 의무는 처리 전부터 존재했습니다. 회사에 이를 이행할 도구가 없었을 뿐입니다. OCR 기반 처리는 새로운 의무를 만들지 않았습니다. 기존 의무를 이행 가능하게 만들었습니다.

OCR 한계와 품질 등급

손글씨는 OCR 정확도가 낮습니다. 손글씨 내용을 처리하기 전에 낮은 신뢰 임계값을 설정하십시오.

낮은 스캔 품질은 점수를 낮춥니다. OCR 실행 전에 대비 향상 및 기울기 보정이 도움이 됩니다.

비정형 레이아웃 — 다단 페이지, 오래된 법률 서체 — 도 점수가 낮을 수 있습니다.

컴플라이언스 작업을 위한 품질 등급을 설정하십시오:

페이지 정확도 95% 이상: 자동 처리 실행
80~95%: 자동 처리 후 플래그 된 엔터티에 대한 인적 검토
80% 미만: 수동 검토로 전송

계층적 접근 방식은 규제 기관에 신뢰성을 어떻게 평가했는지 명확히 답변을 제공합니다. 대부분의 자동화 도구는 높은 신뢰도 파일을 처리합니다. 수동 대기열이 나머지를 처리합니다. 처리량이 높게 유지됩니다. 컴플라이언스 품질도 높게 유지됩니다.

OCR 기반 처리 및 감사 추적 요건에 관한 일반적인 질문은 FAQ를 참조하십시오.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

GDPR 레거시 스캔 문서: OCR과 PII 처리

GDPR과 레거시 스캔 파일: PII를 위한 OCR

탐지 파이프라인의 작동 방식

대규모 아카이브 처리

사례 연구: 로펌 아카이브

OCR 한계와 품질 등급

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

GDPR 레거시 스캔 문서: OCR과 PII 처리

GDPR과 레거시 스캔 파일: PII를 위한 OCR

탐지 파이프라인의 작동 방식

대규모 아카이브 처리

사례 연구: 로펌 아카이브

OCR 한계와 품질 등급

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow