Najbolj nevarna beseda v varnosti pravnih dokumentov: »Redigirano«
Kadar je sodna datoteka označena z »REDIGIRANO«, nasprotna stranka, novinarji in javnost predpostavljajo, da so informacije odstranjene. Kadar je ta predpostavka napačna — kadar je »redigirano« besedilo izlužljivo s kopiranjem in lepljanjem ali ekstrakcijo tekstne plasti PDF — so posledice od strokovnih sankcij do izpostavljenosti nacionalni varnosti.
Redigiranje pranja — uporaba vizualnih prenosov na PDF-je brez odstranitve temeljnega besedila — je povzročilo vrsto vidnih napak, ki dokazujejo, da to ni hipotetično tveganje.
Datoteke DOJ Epstein (december 2025): Sodne datoteke, vložene s črnimi pravokotniki nad občutljivim besedilom. Temeljno besedilo je bilo izlužljivo s kopiranjem in lepljanjem. Novinarji in javni opazovalci so to odkrili v nekaj urah po vložitvi. Izpostavljenost je vključevala imena in podrobnosti, ki jih je zvezno tožilstvo trdilo, da bi morala ostati zaprta.
Primer Paul Manafort (januar 2019): Odvetniki obrambe so vložili redigirane sodne dokumente v Muellerjevo preiskavo z uporabo vgrajene funkcije poudarjanja besedila v Microsoft Wordu — kar proizvaja črno črto brez odstranitve temeljnega besedila. Kopiranje in lepljenje je takoj razkrilo vsebino. Sodišče ni bilo zadovoljno.
Dokumenti NSA in obveščevalne skupnosti (več incidentov): Desetletja »redigiranih« izdaj PDF z izluživim besedilom, ki ga večkrat odkrijejo novinarji in raziskovalci. Odbor za nadzor obveščevalne skupnosti je izdal več smernic izrecno o tem načinu napake.
Vzorec je dosledan: nekdo uporabi vizualni prerez, ampak ne briše podatkov. Rezultat: »Redigirano« besedilo je le maske, ne je zbrisana.
Kaj »pravo« redigiranje zahteva
Tehnično gledano: PDF ima dva sloja — tekstni sloj (ki ga lahko izlužite) in vizualni sloj (kaj vidite). Redigiranje debe odstraniti tekst iz obeh.
Večina »redigiranja« (»Word« »Črni stolpec«, »PDF« »črni pravokotnik«, »PowerPoint« »oblika preko teksta«) je samo vizualni — besedilo ostane.
Pravo redigiranje:
- Identificiraj osebne podatke v PDF — imena, naslove, telefonske številke
- Izbriši besedilo iz tekstnega sloja — ne le prekrivanja
- Izbriši besedilo iz vizualnega sloja — PDF slika
- Preveri, da je besedilo res izbrisano — poskusite kopirati
Programske knjižnice za to: PDFBox, PyPDF2, pdfplumber (Python). Nobena od njih ne počne »črnih polic« — vsi počnejo »izbris«.
Kaj je »dejanski« problem
Problem ni »tehnični«. Problem je »pravni«. GDPR, HIPAA, odvetniška tajna — vse zahtevajo, da se osebni podatki trajno »odstranijo« ali »nezlomljivo« »zamenjajo«.
»Črno polje« ni »trajno« — je »vidno«. In »vidno« pomeni »»» »»«» »»» »»» »» »»» »»» »» »» »»» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »» »»