By · Last updated 2026-05-28

Quay lại BlogKỹ Thuật

FOIA: Biên tập AI rút ngắn từ tuần xuống giờ

Chính phủ liên bang Mỹ ước tính chi 500 triệu USD cho xử lý FOIA năm 2024, chủ yếu là biên tập thủ công. ARPA-H đã tìm kiếm phần mềm biên tập AI để giải quyết tình trạng tồn đọng.

May 28, 20268 phút đọc
FOIA automationgovernment AIARPA-HDSARpublic records redaction

FOIA: AI Rút Ngắn Biên Tập Từ Tuần Xuống Giờ

Cập nhật cho năm 2026.

Chính phủ liên bang Mỹ ước tính chi 500 triệu USD cho xử lý FOIA năm 2024. Phần lớn chi phí đó là biên tập thủ công. Tồn đọng của DOJ vượt 100.000 yêu cầu đang mở.

ARPA-H đã phát hành một gói thầu năm 2025 cho phần mềm biên tập AI. HHS nhận thấy bộ phận CMS của mình cần các công cụ hỗ trợ AI. Công việc thủ công đã tạo ra tồn đọng mà nhân viên không thể giải quyết.

Câu hỏi đã thay đổi. Bây giờ không còn là liệu có nên tự động hóa hay không. Mà là làm thế nào để làm điều đó theo cách đứng vững trước tòa án.

Vấn Đề Tồn Đọng Liên Bang

Theo 5 U.S.C. §552, các cơ quan phải phản hồi trong vòng 20 ngày làm việc. Trong thực tế, nhiều cơ quan mất nhiều tháng. Một số mất nhiều năm.

Tồn đọng 100.000+ yêu cầu của DOJ tương đương khoảng 2 tỷ phút xem xét thủ công. Đó là giả định chỉ 20 phút mỗi yêu cầu. Theo mức chi phí lao động của chính phủ, tổng chi phí lên đến hàng tỷ đô la.

Phần lớn thời gian dành cho một tác vụ. Nhân viên quét trang để tìm tên, địa chỉ và số điện thoại. Điều đó không cần phán đoán của luật sư. Nó cần khớp mẫu. Một thuật toán làm điều đó trong vài giây.

Những Gì ARPA-H và HHS Yêu Cầu

ARPA-H tìm kiếm phần mềm biên tập AI cho xử lý tài liệu FOIA. Các yêu cầu được nêu là:

  • Tự động xác định dữ liệu cá nhân thuộc Miễn trừ 6 và 7(C).
  • Xử lý hàng loạt các bộ tài liệu lớn.
  • Hỗ trợ định dạng hỗn hợp: PDF, Word và email.
  • Tài liệu dấu vết kiểm toán.
  • Đầu ra có thể bảo vệ pháp lý cho phản hồi FOIA.

HHS/CMS đi đến cùng một kết luận. Khối lượng tăng và nhân sự không tăng khiến xem xét thủ công không bền vững. Các cơ quan này không chạy theo công nghệ mới. Họ đang giải quyết khủng hoảng tuân thủ.

Tiểu bang và Địa phương: Ít Nguồn Lực, Cùng Quy Tắc

Các cơ quan liên bang có văn phòng FOIA chuyên dụng và ngân sách pháp lý. Chính quyền tiểu bang và địa phương phải đối mặt với các nghĩa vụ pháp lý giống nhau với nguồn lực ít hơn nhiều.

CPRA của California yêu cầu phản hồi trong vòng 10 ngày dương lịch. Một hạt với nhóm pháp lý ba người không thể xử lý 2.000 tài liệu trong khoảng thời gian đó. Các lựa chọn bị hạn chế:

  1. Từ chối hoặc trì hoãn — tạo ra rủi ro pháp lý.
  2. Thuê nhân viên tạm thời — tốn kém và chậm.
  3. Tự động hóa giai đoạn biên tập cơ học.

Phương án 3 giờ đây nằm trong tầm tay. Xử lý hàng loạt tương tự mà các cơ quan liên bang sử dụng có sẵn cho các phòng pháp lý cấp hạt. Không cần thủ tục mua sắm dài. Xem tổng quan tuân thủ của chúng tôi để biết cách các quy tắc hồ sơ công cộng áp dụng trên các thẩm quyền.

DSAR EU: Cùng Một Vấn Đề

Yêu cầu Truy cập Chủ thể Dữ liệu (DSAR) theo Điều 15 GDPR tạo ra thách thức song song cho các tổ chức EU. Không giống FOIA, nghĩa vụ DSAR áp dụng cho tất cả tổ chức xử lý dữ liệu cá nhân. Một công ty SaaS nhỏ có thể nhận cùng khối lượng DSAR như một ngân hàng lớn.

Thách thức thực tế phản chiếu FOIA. Một tổ chức phải cung cấp tất cả dữ liệu được lưu giữ về một người cụ thể. Dữ liệu cá nhân của bên thứ ba phải được xóa khỏi phản hồi. Thời hạn là 30 ngày.

Mỗi DSAR chạm vào kho email, phiếu hỗ trợ và hồ sơ đặt hàng có thể liên quan đến hàng trăm tài liệu cần kiểm tra. Đối với các tổ chức xử lý 20–50 DSAR mỗi tháng, xem xét thủ công cần một hoặc nhiều nhân viên toàn thời gian. Tự động hóa hàng loạt giảm điều đó xuống còn bán thời gian.

Xử Lý Máy Tính để Bàn cho Hồ Sơ Nhạy Cảm

Một số cơ quan không thể dùng các công cụ dựa trên web. Dữ liệu phải ở lại trong hệ thống của cơ quan cần xử lý cục bộ.

Ứng dụng Desktop (anonym.plus) được xây dựng cho trường hợp sử dụng này:

  • Tất cả xử lý chạy trên phần cứng của cơ quan.
  • Không có dữ liệu nào được gửi đến máy chủ bên ngoài.
  • Chạy hàng loạt xử lý 1–5.000 tệp mỗi lần.
  • Định dạng được hỗ trợ: PDF, DOCX, XLSX, TXT, CSV, JSON, XML.
  • Các tệp đã xử lý được đóng gói dưới dạng lưu trữ ZIP.
  • Bao gồm xuất CSV và JSON với metadata mỗi tệp.

Đối với các cơ quan có mạng air-gapped hoặc quy tắc lưu trú dữ liệu nghiêm ngặt, xử lý cục bộ là con đường khả thi duy nhất. Ứng dụng Desktop sử dụng cùng mô hình phát hiện — XLM-RoBERTa với 285+ loại thực thể — như nền tảng web. Nó hoạt động hoàn toàn offline.

Xem tài liệu Ứng dụng Desktop để biết chi tiết cài đặt.

Ghi Chú Triển Khai

Dấu vết kiểm toán. Quy trình làm việc của chính phủ yêu cầu hồ sơ về những gì đã được xóa, trên cơ sở nào và bởi ai. Metadata hàng loạt bao gồm hai điều đầu tiên. Định tuyến tài liệu ngoại lệ qua xem xét nhân viên bao gồm phần còn lại.

Tính nhất quán. Một phản hồi FOIA xóa tên trong một tài liệu nhưng bỏ sót ở tài liệu khác tạo ra rủi ro pháp lý. Một cấu hình tự động cố định loại bỏ sự không nhất quán đó.

Tài liệu SBU. Nhiều tài liệu chính phủ nhạy cảm nhưng không được phân loại. Xử lý cục bộ xử lý tệp SBU mà không sử dụng mạng. Xử lý dựa trên web với các thỏa thuận DPA phù hợp bao gồm các tệp không phải SBU.

Định dạng đầu ra. Phương pháp Xóa sử dụng thay thế thanh đen. Điều này khớp với diện mạo của các biên tập FOIA tiêu chuẩn và phù hợp cho sản xuất tại tòa án. Cách tiếp cận token — chẳng hạn như [REDACTED - Exemption 6] — thêm trích dẫn miễn trừ rõ ràng cho các hồ sơ chi tiết hơn.

Kết Luận

FOIA là nghĩa vụ pháp lý. Thời hạn 20 ngày làm việc không phải là mục tiêu. Khi khối lượng yêu cầu vượt quá những gì nhân viên có thể xử lý, thất bại xảy ra.

Biên tập hàng loạt hỗ trợ AI không thay thế phán đoán pháp lý. Nó loại bỏ giai đoạn cơ học — tìm và đánh dấu dữ liệu cá nhân tiêu chuẩn trong hàng nghìn tài liệu. Giai đoạn đó chiếm 70–80% thời gian xem xét. Nhân viên sau đó có thể tập trung vào 10–20% tài liệu mà ngữ cảnh quan trọng.

ARPA-H và HHS/CMS đều nhận thấy điều này. Chính quyền tiểu bang và địa phương cùng các tổ chức EU phải đối mặt với nghĩa vụ DSAR đối mặt cùng thách thức. Xem tổng quan bảo mật và tuân thủ để biết cách các quy trình biên tập có thể bảo vệ pháp lý được cấu trúc.

Nguồn Tài Liệu

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.