The FOIA Backlog Crisis
Freedom of Information Act (FOIA) — americký zákon, ktorý umožňuje verejnosti žiadať federálne záznam — má na konci 2024 2+ ročný čakací čas na splnenie. U.S. General Accounting Office hlási:
- ~750,000 čakajúcich FOIA požiadaviek
- 6-24 mesiacov priemerný čas na splnenie
- Náklady: ~$2 miliárd ročne na redakciu a vybavovanie
Sources:
- https://www.gao.gov/assets/gao-24-111sp.pdf
- https://www.muckrock.com/news/archives/2024/12/02/foia-backlog-hits-record-high/
Hlavný problém: Redakcia dokumentov. Federálna agentúra musí vyredakovať:
- Atorneyova tajnosť: Pokyn, právny poradenstvo
- Obchodná tajnosť: Formule, výrobné procesy
- Osobné údaje: Sociálna bezpečnosť čísla, adresy, telefón čísla
- Bezpečnosť: Bezpečnostné protokoly, slabiny
- Diplomacia: Citlivé zahraničnej politiky
Redakcia sa robí ručne — právnik číta dokument, podtrhuje redakcie, odešle IT na skanování a blokování.
NLP Redakcia
Automatizované redakcie pomocou NLP/PII detekcie môžu zrýchliť proces:
- PII detektor: Skenuje dokument na osobné údaje (SSN, adresa, email, telefón)
- Entita tagger: Skenuje na názvy osôb, názvy organizácií, lokácie
- Regex matcher: Skenuje na vzorec (čísla spočtu, čísla licencií)
- Jazykový model: Claude alebo ďalšie LLM — číta dokument a identifikuje právnu oprávnenie predpokladaného redakcie
Príklad — LLM prompt na FOIA redakciu:
Federal FOIA Redaction Request
Dokument: [päť-strán federálna memoranda]
Zadaní: Identifikujte a redakuje nasledujúci:
1. Osobné údaje (SSN, adresa, telefón, email)
2. Právne oprávnenie (atorneyova tajnosť, právneho poradenstva)
3. Obchodná tajnosť (formulácie, výrobné procesů, ceny)
4. Bezpečnosť (bezpečnostné protokoly, IP adresy)
5. Diplomacia (zahraničné názory, čitlivé lokálne)
Procedúra:
1. Čítajte dokument
2. Záznamujete presné redakcie (řádek číslo, text)
3. Génijuujete redakciu logiku
4. Výstup redakcia jako [REDACTED-ATTORNEY-CLIENT], [REDACTED-TRADE-SECRET], atď.
Výstup: JSON sa seznam redakcie
Každá redakcia je označená -- [REDACTED-REASON-CODE] — aby si федеральнные pracovníci mohli ľahko skontrolovať logiku.
Integrácia na FOIA Workflow
- Vstup: Federální agentúra obdrží FOIA požiadavku
- Scan: NLP redakcia skanovať dokument(y) — 5-10 sekúnd
- Flag: Všetko podozrievajú redakcie sú označené pre právneho revízie
- Review: Právnik kontroluje NLP zoznamu redakcie — 15 minút
- Aprova: Schválení redakcie sú aplikované
- Výstup: Redakcia dokument sa vráti podávateľu
Nástroje
- Presidio (Microsoft, open-source): PII detekciu, NER tagging
- anonym.legal: PII detekcia + redakcia (bez API key — lokálne)
- OpenAI API: Claude/GPT redakcia (bez lokalnej výpočty)
- Trellix: Federálný redakcia software