Tornar al BlogTècnic

Fragmentació de Format de Documents: Per Què PDF...

Els documents empresarials estan en 7+ formats (PDF, Word, Excel, PowerPoint, Pages, Google Docs, escaneig).

April 21, 20267 min llegit
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Un dels majors reptes en la conformitat amb GDPR que les empreses enfronten és que les dades sensibles estan codificades en 7+ formats de document incompatibles, cadascun requirint detecció de PII i anonimització separada.

Els 7 Formats Principals d'Empreses Europees

1. PDF (38% de documents corporatius)

  • PDF text-based (searchable)
  • PDF escanejat (imatge + OCR)
  • PDF signat digitalment (certificat digital XAdES)
  • Cada tipus requereix una tècnica de detecció diferent

2. Microsoft Word (.docx) (24% de documents)

  • Text dins de cos de document
  • Text dins de taules
  • Text dins de commentaris/tracked changes
  • Metadades ocultes (autor original, timestamps de edició)
  • Cada capa requereix extracció separada

3. Microsoft Excel (.xlsx) (19% de documents)

  • Text dins de celles de dades
  • Text dins de fórmules
  • Text dins de gràfics incrustats
  • Capes de dades ocultades (pestanyes amagades)
  • Cada capa requereix parsing separada

4. PowerPoint (.pptx) (11% de documents)

  • Text dins de diapositives
  • Text dins de notes de presentador
  • Text dins de gràfics incrustats
  • Transicions/anotacions ocultades

5. Google Docs (5% de documents)

  • Necessita API de Google per accedir
  • Versionat — cada versió conté potencialment PII diferent
  • Comentaris/respostes ocultats
  • Historial de col·laboració que mostra qui va escriure què

6. Notion/Confluence (2% de documents)

  • Format propietari markdown
  • Necessita API per accedir
  • Enllaços incrustats que es requereix crawling

7. Escaneig (1% però en creixement)

  • Scans de documents fisics (TIFF, JPG)
  • Requereixen OCR per extreure text
  • OCR és 85-92% precís en llengües europees
  • OCR errors causa fausos negatius (números de nòmina no detectats)

Cost de l'Anonimització Manual

Quan una empresa descobreix que 100,000 documents contenen dades sensibles no anonimitzades, el cost és substantial:

  • Detecció manual: €200-300 per document (hiring humans per lectura)
  • Anonimització manual: €150-250 per document (redacció digital, verificació)
  • Verificació d'audit: €50-100 per document (verificació que no queden dades)
  • Cost total: €400-650 per document × 100,000 = €40M-65M

Per a una empresa mediana, això representa 2-3 anys de pressupost de TI sencer.

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.