By · Last updated 2026-05-28

블로그로 돌아가기기술

FOIA: 비식별화 처리 기간을 몇 주에서 몇 시간으로

연방 정부는 2024년 FOIA 처리에 약 5억 달러를 지출했으며, 대부분이 수동 비식별화 비용이었습니다. ARPA-H는 AI 비식별화 소프트웨어를 명시적으로 요청했습니다.

May 28, 20268 분 읽기
FOIA automationgovernment AIARPA-HDSARpublic records redaction

FOIA: AI로 비식별화 처리를 몇 주에서 몇 시간으로 단축

2026년 업데이트

연방 정부는 2024년 FOIA 처리에 약 5억 달러를 지출했습니다. 그 비용의 대부분은 수동 비식별화였습니다. 법무부(DOJ) 미처리 건수는 10만 건을 넘었습니다.

ARPA-H는 2025년에 AI 비식별화 소프트웨어 조달 공고를 발표했습니다. HHS는 CMS 부서에 AI 기반 도구가 필요하다는 것을 확인했습니다. 수동 작업으로 인해 직원들이 해소할 수 없는 업무 적체가 발생했습니다.

문제의 초점이 바뀌었습니다. 자동화 여부가 아닙니다. 법정에서 유효한 방식으로 하는 방법의 문제입니다.

연방 업무 적체 문제

5 U.S.C. §552에 따라 기관은 20 근무일 이내에 응답해야 합니다. 실제로는 몇 달이 걸리는 경우가 많습니다. 몇 년이 걸리기도 합니다.

10만 건 이상의 DOJ 미처리 건수는 수동 검토 약 20억 분에 해당합니다. 요청 1건당 20분만 가정해도 그렇습니다. 정부 청구 요율로 계산하면 노동 비용은 수십억 달러에 달합니다.

그 시간의 대부분이 한 가지 작업에 소요됩니다. 직원들이 페이지를 스캔하며 이름, 주소, 전화번호를 찾습니다. 이것은 변호사의 판단이 필요하지 않습니다. 패턴 매칭이 필요합니다. 알고리즘은 이것을 몇 초 만에 처리합니다.

ARPA-H와 HHS의 요구 사항

ARPA-H는 FOIA 문서 처리를 위한 AI 비식별화 소프트웨어를 요청했습니다. 명시된 요구 사항은 다음과 같습니다:

  • 면제 6조 및 7(C)항 개인 데이터의 자동 식별
  • 대용량 문서 세트의 배치 처리
  • PDF, Word, 이메일 등 혼합 형식 지원
  • 감사 추적 문서화
  • FOIA 응답을 위한 방어 가능한 결과물

HHS/CMS도 같은 결론에 도달했습니다. 증가하는 처리량과 변화 없는 인력으로는 수동 검토가 지속 불가능했습니다. 이 기관들은 새 기술을 쫓는 것이 아니었습니다. 컴플라이언스 위기를 해결하고 있었습니다.

주 및 지방 정부: 더 적은 자원, 동일한 규정

연방 기관에는 전담 FOIA 사무소와 법률 예산이 있습니다. 주 및 지방 정부는 훨씬 적은 자원으로 동일한 법적 의무를 마주합니다.

캘리포니아의 CPRA는 10 역일 이내에 응답해야 합니다. 법무팀 3명인 카운티는 그 기간 안에 문서 2,000건을 처리할 수 없습니다. 선택지는 제한적입니다:

  1. 거부 또는 지연 — 법적 위험을 만듦
  2. 임시 직원 채용 — 비용이 많이 들고 속도가 느림
  3. 기계적 비식별화 단계 자동화

3번 선택지가 이제 가능합니다. 연방 기관이 사용하는 것과 동일한 배치 처리가 카운티 법무팀에서도 사용 가능합니다. 긴 조달 일정이 필요 없습니다. 공공 기록 규정이 관할권에 걸쳐 어떻게 적용되는지는 컴플라이언스 개요를 참조하세요.

EU DSAR: 동일한 문제

GDPR 제15조 정보주체 접근 요청(DSAR)은 EU 조직에 유사한 과제를 만듭니다. FOIA와 달리 DSAR 의무는 개인 데이터를 처리하는 모든 조직에 적용됩니다. 소규모 SaaS 기업도 대형 은행과 동일한 양의 DSAR를 받을 수 있습니다.

실질적 과제는 FOIA와 유사합니다. 조직은 특정 개인에 관해 보유한 모든 데이터를 제공해야 합니다. 제3자 개인 데이터는 응답에서 비식별화해야 합니다. 기한은 30일입니다.

이메일 아카이브, 지원 티켓, 주문 기록에 관한 각 DSAR은 확인할 수백 개의 문서를 의미할 수 있습니다. 월 20~50건의 DSAR을 처리하는 조직에는 수동 검토에 한 명 이상의 전담 직원이 필요합니다. 배치 자동화로 이 업무량을 파트타임으로 줄일 수 있습니다.

민감 기록을 위한 데스크톱 처리

일부 기관은 웹 기반 도구를 사용할 수 없습니다. 기관 시스템 내에 유지해야 하는 데이터는 로컬 처리가 필요합니다.

데스크톱 앱(anonym.plus)은 이 사용 사례를 위해 구축되었습니다:

  • 모든 처리가 기관 자체 하드웨어에서 실행됨
  • 외부 서버로 데이터 전송 없음
  • 배치 실행으로 한 번에 1~5,000개 파일 처리
  • 지원 형식: PDF, DOCX, XLSX, TXT, CSV, JSON, XML
  • 처리된 파일은 ZIP 아카이브로 패키징
  • 파일별 메타데이터가 포함된 CSV 및 JSON 내보내기 포함

에어갭 네트워크나 엄격한 데이터 거주 규정이 있는 기관에는 로컬 처리만이 실행 가능한 경로입니다. 데스크톱 앱은 웹 플랫폼과 동일한 탐지 모델 — XLM-RoBERTa, 285개 이상의 엔티티 유형 — 을 사용합니다. 완전한 오프라인 작동합니다.

설정 세부 사항은 데스크톱 앱 문서를 참조하세요.

구현 시 참고 사항

감사 추적. 정부 워크플로에는 무엇이, 어떤 근거로, 누구에 의해 비식별화되었는지의 기록이 필요합니다. 배치 메타데이터가 처음 두 가지를 커버합니다. 예외 문서를 직원 검토로 라우팅하면 나머지가 커버됩니다.

일관성. 한 문서에서는 이름을 비식별화하고 다른 문서에서는 놓치는 FOIA 응답은 법적 노출을 만듭니다. 고정된 자동화 설정이 이 불일치를 제거합니다.

SBU 자료. 많은 정부 문서는 민감하지만 비밀로 분류되지 않습니다. 로컬 처리로 네트워크 사용 없이 SBU 파일을 처리합니다. 적절한 DPA 계약이 있는 웹 기반 처리는 비SBU 파일을 커버합니다.

출력 형식. 비식별화(Redact) 방법은 검은 막대 대체를 사용합니다. 이것은 표준 FOIA 비식별화의 형태와 일치하고 법원 제출에 적합합니다. 토큰 방식 — [REDACTED - Exemption 6] 같은 — 은 더 상세한 기록에 명시적 면제 조항 인용을 추가합니다.

핵심 요점

FOIA는 법적 의무입니다. 20 근무일 기한은 목표가 아닙니다. 요청 처리량이 직원이 감당할 수 있는 것을 초과하면 실패가 발생합니다.

AI 기반 배치 비식별화는 법률적 판단을 대체하지 않습니다. 기계적인 단계 — 수천 개의 문서에서 표준 개인 데이터를 찾고 표시하기 — 를 제거합니다. 이 단계가 검토 시간의 7080%를 소비합니다. 직원은 그 후 맥락이 중요한 1020%의 문서에 집중할 수 있습니다.

ARPA-H와 HHS/CMS 모두 이것을 파악했습니다. DSAR 의무를 지는 주·지방 정부와 EU 조직도 동일한 과제에 직면합니다. 방어 가능한 비식별화 워크플로가 구조화되는 방식은 보안 및 컴플라이언스 개요를 참조하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.