Itzuli BlogeraGDPR & Betetze

Legea Skeatutako Dokumentua: Nolanahi OCR Zehaztasuna...

Organisazioak 50 urteren paperean dokumentua (kontratua, adierazpenak, erreistro) dituzte. Scanninga ez dute berrikustatu. OCR-en zehaztasuna %85-95 da.

April 21, 20267 min irakurri
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Legea Skeatutako Dokumentuaren Arazoa

Organizazioak legea dokumentua dituzten, paperean sorta batean, 50 urteren lehenean osoan. Kontratua, adierazpenak, datu-errehistro, pazientea anotazioa — osoan papera.

Skeatutakoa dokumentua osoan OCR prozesuak, eta OCR-en zehaztasuna ez diren %100:

OCR-en zehaztasunaren adierazpena:

  • Kalitate altuko eskaneatzea (300 DPI): %95-98 zehaztasuna
  • Kalitate batean eskaneatzea (200 DPI): %85-92 zehaztasuna
  • Kalitate baxua eskaneatzea (100 DPI): %70-80 zehaztasuna

Skeatutako Dokumentuaren Anonimizazioen Inplementazioa

2 opsio:

  1. OCR zehaztasuna hobetu: Dokumentua berrikusi, Tesseract OCR neurtu
  2. OCR erroren tolerantzia: Fuzzy-matching erabilitzearen PII detekzioen

Iturburuak:

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.