Späť na blogTechnické

FOIA AI Redakcia: Riešenie vládnej zásuvky 50 000...

US FOIA agentúry čelia zásuuke 50 000+ nedokončených požiadaviek, z toho 20% je zastaraných. Manuálna redakcia citlivých údajov zaberá 6-8 týždňov.

April 19, 20268 min čítania
FOIA automationgovernment AIARPA-HDSARpublic records redaction

FOIA AI Redakcia: Riešenie vládnej zásuvky 50 000 požiadaviek

US FOIA (Freedom of Information Act) vyžaduje federálnym agentúram zverejniť požadované záznamy do 20 pracovných dní. V roku 2024 existuje zásuvka:

  • 450 000+ aktívne požiadavky
  • 50 000+ meškajúcich (mimo lehoty)
  • ~20% je zastaraných viac ako 2 roky

Proč? Redakcia. Nie zbieranie údajov. Zveľadovanie.

Zákon na ochranu FOIA požaduje redakcie v súlade s 6 výnimkami:

  1. (b)(1): Bezpečnosť národa (klasifikovaný bezpečnostný materiál)
  2. (b)(3): Ďalšie federálne zákony (SSN, dátumy narodenia, banková čísla)
  3. (b)(4): Obchodná či finančná informácia tretej strany (preposlané firemné tajomstvá)
  4. (b)(6): Osobná správa (detaily o pracovníkoch, študentov, jednotlivcoch)
  5. (b)(7): Informácie o vymáhanie zákonů (vyšetrovania, taktiky)
  6. (b)(8): Finančné inštitúcie regulácia

Prakticky každé vytknuté dokumenty ma:

  • Sociálne čísla
  • Domáce adresy
  • Telefónne čísla
  • Rodné dátumy
  • Diagnózy zdravia
  • Záznamy finančných subjektov

Manuálne redakcie:

  • Čítaní každého riadku
  • Hľadaj PII vzory
  • Nakreslenie čiernej čáry alebo pixelizácie
  • Verifiká, že nič nie je prehliadané

Priemerná redakcia dokumentu trvá 15-30 minút. 50 000 záktuálne požiadaviek × 10 stredných dokumenty = 500 000 dokumenty × 20 minút = 166 000 pracovných hodín. To je 80 FTE na rok, len na redakciu.

Federálna rozpočet na FOIA operácie: ~50 milión ročne. Priemerný plat procesného pracovníka: $42k. Výsledok: Dlhý čas čakania, úchylujúce sa od zákona, žaloby.

Ako fungia AI redakcia

AI nástroj bez manuálného auditu:

  1. Skenuje PDF/DOCX
  2. Identifikácia vzory: nnn-nn-nnnn (SSN), M/DD/YYYY (dátum), street address (adresa), @email (email)
  3. Aplikuje čiernu čiaru
  4. Výstup: redakovaný dokument

Rýchlosť: 4-8 sekúnd na dokument. 500k dokumenty = 550-1200 pracovných hodín (miesto 166 000).

Problém: Falošne negatívne. AI redakcia podľa Nightfall študie: detekcia 97%, ale 8% falošne pozitívne (červených vlajok bez skutočného PII, ako "123 Main Street" v otvorenom kontexte).

Dôsledok: Pracovník stále skúmať výstup. Ale namiesto čítania každého riadku, skúmajú len červené vlajky. Skúmanie 500k dokumenty s 50k výstrah = 10 dokumenty za redakciu, namiesto skúmania 10 dokumenty plne. Úspora: 80 % času.

Skutočný prípad: GSA Federal Excess Property

GSA (General Services Administration) zveľaduje zbytky vládneho majetku pre intervencie. Databáza: 2 milióny majetkov. Každá položka ma niekedy:

  • Názov agentúry
  • Umiestnenie: budova, pok číslo, ulica
  • Opis: "Počítač (7 jednotiek), pôvodný vlastník: Pentagon, Ft. Bliss, TX 79916"
  • Kontakt: Meno, email, telefón

Exi FOIA požiadavky: "Všetci vykortovní majitelia federálneho majetku v Texase."

Databáza je zveľadujúca, ale obsahuje:

  • Osobné adresy: Ft. Bliss = známa vojenská základňa. Adresa "Ft. Bliss, TX 79916, budova 3104" môže mapovať na konkrétnu rodinu.
  • Kontakty: Telefón + meno = vyhľadateľný vládny pracovník.

Manuálny prístup:

  1. Extrakt relevantní majitky (trvá 3 dni)
  2. Redakcia každého kontaktu (trvá 5 dni)
  3. Právny recenzia (trvá 2 dni) Čas: 10 dní + 150 hodín. Náklady: ~$ 6k.

AI prístup:

  1. Databází query (minuty)
  2. AI redakcia: identifikácia kontaktu + adresa, čierna čiara (2 minúty pre 1000 záznamov)
  3. Právny spot-check (30 minút) Čas: 3 dni + 2 hodiny. Náklady: ~$ 150.

Otázka: Môže AI redakcia zmešť niečo?

Áno. Bežne:

  1. Kontextová redakcia: "Dostal som SMS od +1-202-555-0123 v Bielom dome." - Telefón je verejný, ale kontext zveľaduje identifikáciu. AI väčšinou redakuje iba telefón, nie opis.

  2. Nové PII Typy: "Záznama pacient ID: MRN-94021" - Ak AI nie je trénovaná na MRN vzory, zmeškám to.

  3. Iné Jazyki: "Nemzeti azonosító: 19810101A123" (Mad ID Maďara) - Vzory sú špecifické na krajinu.

  4. Kombinovaná re-identifikovateľnosť: [Vek 34] + [Štát: Ohio] + [Oblasť: Columbus] = možno 1 osoba v malej meste. Iba vek alebo štát sám, AI redakuje vek, ale nie štát (nie je "PII").

Riešenie: Práve osoba overuje AI výstup na vzorke, namiesto 100 % manuálne.

Skutočný výsledok: Čas

Výsledky zo zadaní digitálneho spracovania (2023–2024):

  • Chrane + AI bez recenzia: 500k dokumenty × 5 sekúnd = 69 hodín, 12 % chyby (neobchodné)
  • Chrane + AI + 10% ľudskej vzorka: 500k documenty × 6 sekúnd (AI) + 50k × 3 minúty (vzorka) = ~2500 hodín, 1 % chyby
  • 100 % manuálne: 500k dokumenty × 20 minút = 166 000 hodín, 0,5 % chyby

Zásada: AI + ľudská vzorka je 66x rýchlejšie ako 100% manuálne s lepšou omylmi ako čisté AI.

Implementácia

Pre vládu: FEDRAMP certifikácia

AI redakcia nástroj musí prejsť FedRAMP: Seniorizácia, Auditovanie, Kontrola prístupu, Šifrovanie, Dostupnosť.

Anonym.legal + MCP server + Federálny SSO = 18-36 mesiacov FedRAMP audit.

Alternatívna: Existujúce nástroje Nightfall + Google Workspace, Blacklists.

Pre interné FOIA tím

  1. Vytvoriť kľúčové PII typy: SSN, DOB, Address, Email, Telefón, Meno, MRN, Číslo identifikačného preukazu
  2. Nastaviť IT: Kde žije záznam (Google Drive, Sharepoint, GCS)?
  3. Skenovaní vzorka PDF 100 dokumenty, urobiť AI redakcia, recenzia FTP.
  4. Škála na 50k požiadaviek.

Súhrn

FOIA zásuvka - 50 000+ zastaraných požiadaviek - je hlavne redakcia úloha. AI redakcia bez recenzia = chybovateľné. AI + 10% ľudskej vzorka = 66x rýchlejšia ako 100% manuálne s 1-2 % chybovosťou - v rámci právneho štandardu.

Vláda mohla by:

  • Znížiť meškajúcich požiadaviek z 50k → 5k v 12 mesiacoch
  • Rozšíriť FOIA tím bez extra rozpočtu
  • Zlepšiť právny súlad

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.