Prípad Úradu: "Máme 80 000 Starých Skanov. Potřebujeme Ich Anonimizovať."
Veľký právny úrad ma archív papierových dokumentov od 1990-2015:
- 80,000 fyzických papierov
- Skenerované na 300 DPI, čiernobiele TIF súbory
- Žiadne metadata (nie sú to PDF+OCR, iba raw TIF)
- Uložené ako:
000001.tif,000002.tif, ...,080000.tif
GDPR Požiadavka: Klient žiada všetky dokumenty týkajúce sa jeho prípadu z 1992-1998. Úrad musí ich poskytnúť anonimizované (bez iných klientskych PII).
Problém: TIFF je raster (bitová mapa). Neexistuje "textová vrstva". Ak chcete nájsť PII (SSN, DOB, telefón), musíte:
- Spustiť OCR na všetky 80,000 snímky
- Extrahovať text
- Detektovať PII v texte
- Identifikovať, kde je PII v pôvodnej snímke (a/b pixel)
- Zaliať táto región čiernym rámikom
- Uložiť ako nový TIFF