Späť na blogGDPR a Dodržiavanie

GDPR a Archívy Starších Dokumentov: Ako Spracovať 80...

80 000 skenovaných papierových dokumentov z 1990s-2000s. Žiadne metadata, žiadne indexy. GDPR žiada anonimizáciu. Ako?

April 21, 20267 min čítania
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Prípad Úradu: "Máme 80 000 Starých Skanov. Potřebujeme Ich Anonimizovať."

Veľký právny úrad ma archív papierových dokumentov od 1990-2015:

  • 80,000 fyzických papierov
  • Skenerované na 300 DPI, čiernobiele TIF súbory
  • Žiadne metadata (nie sú to PDF+OCR, iba raw TIF)
  • Uložené ako: 000001.tif, 000002.tif, ..., 080000.tif

GDPR Požiadavka: Klient žiada všetky dokumenty týkajúce sa jeho prípadu z 1992-1998. Úrad musí ich poskytnúť anonimizované (bez iných klientskych PII).

Problém: TIFF je raster (bitová mapa). Neexistuje "textová vrstva". Ak chcete nájsť PII (SSN, DOB, telefón), musíte:

  1. Spustiť OCR na všetky 80,000 snímky
  2. Extrahovať text
  3. Detektovať PII v texte
  4. Identifikovať, kde je PII v pôvodnej snímke (a/b pixel)
  5. Zaliať táto región čiernym rámikom
  6. Uložiť ako nový TIFF

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.