Dokumentuaren Formatuaren Zatiketaren Arazoa
Organizazioen dokumentu-sistemak formatua desberdinak daude, eta bakoitzak duten detektzio-balderak ez diren baliokideak:
Word dokumentua (DOCX): Testua osoan strukturatuta dago, PII detekzioa errazago.
PDF dokumentua: Testua strukturatuta dago (natiboa PDF) edo skeatutako irudien OCR beharra.
Excel dokumentua (XLSX): Testua zelulan antolatuta, PII detekzioa asko errazago.
PowerPoint dokumentua (PPTX): Testua diapositiba bakoitzean, PII detekzioa asto errazago.
Osoan Formatuaren Detekzioa Inplementazioa
- Word/DOCX detekzioa: Python-docx edo Office API bidez
- PDF detekzioa: PyPDF2 edo pdfplumber bidez
- Excel detekzioa: openpyxl bidez
- PowerPoint detekzioa: python-pptx bidez
Iturburuak: