FOIA AI Redakcia: Riešenie vládnej zásuvky 50 000 požiadaviek
US FOIA (Freedom of Information Act) vyžaduje federálnym agentúram zverejniť požadované záznamy do 20 pracovných dní. V roku 2024 existuje zásuvka:
- 450 000+ aktívne požiadavky
- 50 000+ meškajúcich (mimo lehoty)
- ~20% je zastaraných viac ako 2 roky
Proč? Redakcia. Nie zbieranie údajov. Zveľadovanie.
Zákon na ochranu FOIA požaduje redakcie v súlade s 6 výnimkami:
- (b)(1): Bezpečnosť národa (klasifikovaný bezpečnostný materiál)
- (b)(3): Ďalšie federálne zákony (SSN, dátumy narodenia, banková čísla)
- (b)(4): Obchodná či finančná informácia tretej strany (preposlané firemné tajomstvá)
- (b)(6): Osobná správa (detaily o pracovníkoch, študentov, jednotlivcoch)
- (b)(7): Informácie o vymáhanie zákonů (vyšetrovania, taktiky)
- (b)(8): Finančné inštitúcie regulácia
Prakticky každé vytknuté dokumenty ma:
- Sociálne čísla
- Domáce adresy
- Telefónne čísla
- Rodné dátumy
- Diagnózy zdravia
- Záznamy finančných subjektov
Manuálne redakcie:
- Čítaní každého riadku
- Hľadaj PII vzory
- Nakreslenie čiernej čáry alebo pixelizácie
- Verifiká, že nič nie je prehliadané
Priemerná redakcia dokumentu trvá 15-30 minút. 50 000 záktuálne požiadaviek × 10 stredných dokumenty = 500 000 dokumenty × 20 minút = 166 000 pracovných hodín. To je 80 FTE na rok, len na redakciu.
Federálna rozpočet na FOIA operácie: ~50 milión ročne. Priemerný plat procesného pracovníka: $42k. Výsledok: Dlhý čas čakania, úchylujúce sa od zákona, žaloby.
Ako fungia AI redakcia
AI nástroj bez manuálného auditu:
- Skenuje PDF/DOCX
- Identifikácia vzory:
nnn-nn-nnnn(SSN),M/DD/YYYY(dátum),street address(adresa),@email(email) - Aplikuje čiernu čiaru
- Výstup: redakovaný dokument
Rýchlosť: 4-8 sekúnd na dokument. 500k dokumenty = 550-1200 pracovných hodín (miesto 166 000).
Problém: Falošne negatívne. AI redakcia podľa Nightfall študie: detekcia 97%, ale 8% falošne pozitívne (červených vlajok bez skutočného PII, ako "123 Main Street" v otvorenom kontexte).
Dôsledok: Pracovník stále skúmať výstup. Ale namiesto čítania každého riadku, skúmajú len červené vlajky. Skúmanie 500k dokumenty s 50k výstrah = 10 dokumenty za redakciu, namiesto skúmania 10 dokumenty plne. Úspora: 80 % času.
Skutočný prípad: GSA Federal Excess Property
GSA (General Services Administration) zveľaduje zbytky vládneho majetku pre intervencie. Databáza: 2 milióny majetkov. Každá položka ma niekedy:
- Názov agentúry
- Umiestnenie: budova, pok číslo, ulica
- Opis: "Počítač (7 jednotiek), pôvodný vlastník: Pentagon, Ft. Bliss, TX 79916"
- Kontakt: Meno, email, telefón
Exi FOIA požiadavky: "Všetci vykortovní majitelia federálneho majetku v Texase."
Databáza je zveľadujúca, ale obsahuje:
- Osobné adresy: Ft. Bliss = známa vojenská základňa. Adresa "Ft. Bliss, TX 79916, budova 3104" môže mapovať na konkrétnu rodinu.
- Kontakty: Telefón + meno = vyhľadateľný vládny pracovník.
Manuálny prístup:
- Extrakt relevantní majitky (trvá 3 dni)
- Redakcia každého kontaktu (trvá 5 dni)
- Právny recenzia (trvá 2 dni) Čas: 10 dní + 150 hodín. Náklady: ~$ 6k.
AI prístup:
- Databází query (minuty)
- AI redakcia: identifikácia kontaktu + adresa, čierna čiara (2 minúty pre 1000 záznamov)
- Právny spot-check (30 minút) Čas: 3 dni + 2 hodiny. Náklady: ~$ 150.
Otázka: Môže AI redakcia zmešť niečo?
Áno. Bežne:
-
Kontextová redakcia: "Dostal som SMS od +1-202-555-0123 v Bielom dome." - Telefón je verejný, ale kontext zveľaduje identifikáciu. AI väčšinou redakuje iba telefón, nie opis.
-
Nové PII Typy: "Záznama pacient ID: MRN-94021" - Ak AI nie je trénovaná na MRN vzory, zmeškám to.
-
Iné Jazyki: "Nemzeti azonosító: 19810101A123" (Mad ID Maďara) - Vzory sú špecifické na krajinu.
-
Kombinovaná re-identifikovateľnosť: [Vek 34] + [Štát: Ohio] + [Oblasť: Columbus] = možno 1 osoba v malej meste. Iba vek alebo štát sám, AI redakuje vek, ale nie štát (nie je "PII").
Riešenie: Práve osoba overuje AI výstup na vzorke, namiesto 100 % manuálne.
Skutočný výsledok: Čas
Výsledky zo zadaní digitálneho spracovania (2023–2024):
- Chrane + AI bez recenzia: 500k dokumenty × 5 sekúnd = 69 hodín, 12 % chyby (neobchodné)
- Chrane + AI + 10% ľudskej vzorka: 500k documenty × 6 sekúnd (AI) + 50k × 3 minúty (vzorka) = ~2500 hodín, 1 % chyby
- 100 % manuálne: 500k dokumenty × 20 minút = 166 000 hodín, 0,5 % chyby
Zásada: AI + ľudská vzorka je 66x rýchlejšie ako 100% manuálne s lepšou omylmi ako čisté AI.
Implementácia
Pre vládu: FEDRAMP certifikácia
AI redakcia nástroj musí prejsť FedRAMP: Seniorizácia, Auditovanie, Kontrola prístupu, Šifrovanie, Dostupnosť.
Anonym.legal + MCP server + Federálny SSO = 18-36 mesiacov FedRAMP audit.
Alternatívna: Existujúce nástroje Nightfall + Google Workspace, Blacklists.
Pre interné FOIA tím
- Vytvoriť kľúčové PII typy: SSN, DOB, Address, Email, Telefón, Meno, MRN, Číslo identifikačného preukazu
- Nastaviť IT: Kde žije záznam (Google Drive, Sharepoint, GCS)?
- Skenovaní vzorka PDF 100 dokumenty, urobiť AI redakcia, recenzia FTP.
- Škála na 50k požiadaviek.
Súhrn
FOIA zásuvka - 50 000+ zastaraných požiadaviek - je hlavne redakcia úloha. AI redakcia bez recenzia = chybovateľné. AI + 10% ľudskej vzorka = 66x rýchlejšia ako 100% manuálne s 1-2 % chybovosťou - v rámci právneho štandardu.
Vláda mohla by:
- Znížiť meškajúcich požiadaviek z 50k → 5k v 12 mesiacoch
- Rozšíriť FOIA tím bez extra rozpočtu
- Zlepšiť právny súlad