Una de les majors vulneracions de GDPR latents a les empreses europees més grans és l'existència de milions de documents escanejats antics que contenen dades personals no anonimitzades dins de imatges.
Una empresa típica de banca europeu o assegurança té:
- 5M-15M imatges de documents escanejats (TIFF, JPG)
- Documents de 1985-2020, la majoria pre-GDPR
- Ningunes metadades estructurades — només arxius de carpeta
- Continguts: cartes de clients, diposits de xecs, preses de nòmina, hypothecaris
- Cadascun contenant múltiples números de comptes, DNIs, NIFs, IBANs
Els Desafiaments OCR
OCR Accuracy:
- OCR English: 97-99% precision
- OCR alemany: 94-96% precision (ä, ö, ü characters)
- OCR italien: 93-95% precision
- OCR danès: 90-92% precision (unique characters som å, ø, æ)
- OCR holandès: 91-93% precision
- OCR portuguès: 89-91% precision
Per a números d'identificació específics:
- Números DNI espanyol (nnnnnnnn-L): OCR fa errades amb la lletra verificació en 12% dels casos
- Números BSN holandès (nnnnnnnnn): OCR errors en 8% (confusió 0/O, 1/l)
- Números IBAN: OCR errors en país, banc i dígits de verificació creuats en 15% dels casos
Cost d'Anonimització de Documents Escanejats
Escenari: Empresa de 200 anys amb 10M documents escanejats
- Conversió OCR: €0.05 per document × 10M = €500K (tenim OCR)
- Detecció de PII: €0.10 per document × 10M = €1M (OCR + regex + humans check 10%)
- Anonimització manual: €0.30 per document × 10M = €3M (humans redactant imatges)
- Verificació d'auditoria: €0.20 per document × 10M = €2M (verificació d'anonimat)
- Almacenatge: €500K (cost de infraestructura)
Cost total estimat: €7M per anonimitzar 10M documents
Per a empreses més grans (50M+ documents), el cost pot assolir €50M+.