Un dels majors reptes en la conformitat amb GDPR que les empreses enfronten és que les dades sensibles estan codificades en 7+ formats de document incompatibles, cadascun requirint detecció de PII i anonimització separada.
Els 7 Formats Principals d'Empreses Europees
1. PDF (38% de documents corporatius)
- PDF text-based (searchable)
- PDF escanejat (imatge + OCR)
- PDF signat digitalment (certificat digital XAdES)
- Cada tipus requereix una tècnica de detecció diferent
2. Microsoft Word (.docx) (24% de documents)
- Text dins de cos de document
- Text dins de taules
- Text dins de commentaris/tracked changes
- Metadades ocultes (autor original, timestamps de edició)
- Cada capa requereix extracció separada
3. Microsoft Excel (.xlsx) (19% de documents)
- Text dins de celles de dades
- Text dins de fórmules
- Text dins de gràfics incrustats
- Capes de dades ocultades (pestanyes amagades)
- Cada capa requereix parsing separada
4. PowerPoint (.pptx) (11% de documents)
- Text dins de diapositives
- Text dins de notes de presentador
- Text dins de gràfics incrustats
- Transicions/anotacions ocultades
5. Google Docs (5% de documents)
- Necessita API de Google per accedir
- Versionat — cada versió conté potencialment PII diferent
- Comentaris/respostes ocultats
- Historial de col·laboració que mostra qui va escriure què
6. Notion/Confluence (2% de documents)
- Format propietari markdown
- Necessita API per accedir
- Enllaços incrustats que es requereix crawling
7. Escaneig (1% però en creixement)
- Scans de documents fisics (TIFF, JPG)
- Requereixen OCR per extreure text
- OCR és 85-92% precís en llengües europees
- OCR errors causa fausos negatius (números de nòmina no detectats)
Cost de l'Anonimització Manual
Quan una empresa descobreix que 100,000 documents contenen dades sensibles no anonimitzades, el cost és substantial:
- Detecció manual: €200-300 per document (hiring humans per lectura)
- Anonimització manual: €150-250 per document (redacció digital, verificació)
- Verificació d'audit: €50-100 per document (verificació que no queden dades)
- Cost total: €400-650 per document × 100,000 = €40M-65M
Per a una empresa mediana, això representa 2-3 anys de pressupost de TI sencer.