Prípad Spoločnosti: "Máme PDF Redaktor, Excel Masku, JSON Tool, Email Sieve a Papierový Scanner."
Veľká spoločnosť (500+ zamestnancov) ma heterogénne IT prostredí:
Produkčné Dáta:
- PDF = Zmluvné dokumenty, nesmie byť zmenený formát
- Excel = Výkazy s 200+ stĺpcami (klientské údaje v maticou)
- JSON = API logov
- E-mail/MSG = Prílohy s PII
- Paper = Archívy dokumentov
Nástrojov v Používaní:
- PDF Redaction - vnútorný nástroj, 8 rokov starý, vytvára large PDF (1-2 MB)
- Excel Masking - homemade Python script, nespracuje hyperlinks/makra
- JSON Cleanup - open-source CLI tool, klady a zápory dokumentácie
- Email PII - plugin v MS Exchange (proprietárny)
- Paper Scanning - externí vendor (outsourced), žádne quality kontrol
Problémy:
#1 Žádna Jednotnosť v Maskovaní
PDF: SSN -> [REDACTED]
Excel: SSN -> "MASKED"
JSON: SSN -> null
Email: SSN -> removed
Paper: SSN -> black rectangle