Tagasi BlogisseTehniline

Dokumendi vormingu fragmenteerimise probleem...

Üksik DSAR vastus võib ulatuda Word lepinguteni, PDF-i arveldusi, Excel'i kliendi loendeid ja CSV ekspordi.

April 21, 20267 min lugemist
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Heterogeense dokumendi ümbruse tegelikkus

Küsi mis tahes järgimisohvitserilt, milliseid dokumendi vorminguid nad peavad anonymiseerima DSAR vastuste jaoks, ja loend on ennustatav: Word lepingud, PDF arveldused, Excel kliendi andmed, CSV süsteemi eksordid ja mõnikord JSON logid või XML söödad.

Küsi, millised tööriistad nad kasutavad, ja vastus on tavaliselt: kolm kuni viis erinevat tööriista, millest igaüks omab erinevat üksuse kattuvust, erinevat konfiguratsiooni liidest ja erinevaid audiiti paljundusega vormingud.

See fragmenteerimine ei ole halb planeerimine. See kajastab ühe tööriista puudumist, mis tõepoolest käsitleb kõiki tootmises dokumendi vorminguid samaväärsete võimalustega. Spetsialiseeritud tööriistad eksisteerivad iga vormingu jaoks. Ühendatud tööriist, mis käsitleb kõiki vorminguid sama mootoriga, samade üksuste tüüpidega ja samade auditeerida rajaga, on ajalooliselt haruldane olnud.

Järgimise probleem, mille see loob: DSAR vastused, mis ulatuvad mitmele dokumendi tüübile, anonymiseeritakse erinevate tööriiistadega erinevate standarditega. Sellest tulenev järjepidevus — üksus X on anonymiseeritud PDF-is, kuid Excel-i ekspordi ei ole, kuna Excel tööriist kasutab erinevat üksuse loetelu — loob täpselt sellest järgimise vahejäägi, mille DPA audits paljusid.

Vormingokonkreetsed väljakutsed

Iga dokumendi vorming esindab PII tuvastamisele erineva tehnilist väljakutse:

PDF

PDF-id võivad olla omakeelne tekst (valitav) või pildipõhine (skannitud). Pildipõhine PDF nõuab OCR-i enne tekstianalüüsi, mis tutvustab vea määra. Omakeeles PDF-id võivad sisaldada tekstifragmente (iga sõna talletatud eraldiseisva tekstiobjektina), mis katkestab üksuse tuvastamist, mis ulatub sõnade piiridesse. Mitme veeru paigutused nõuavad lugemis-järjekorra rekonstrueerimist enne tekstianalüüsi.

Word (DOCX)

DOCX dokumendid sisaldavad dokumendi teksti XML-is, kuid ka: päised, jalused, kommentaarid, jälgitud muudatused, tekstikastid ja jalgnumbrid. PII päistes/jaluses (pealekiri aadressid, kontaktiandmed) sageli puudu tehakse tööriistadel, mis analüüsivad ainult põhiasja. Jälgitud muudatused võivad sisaldada kustutatud teksti PII-ga, mis ei ole renderdatud dokumendis nähtav, kuid on olemas faili struktuuris.

Excel (XLSX)

Exceli kahemõõtmeline struktuur tähendab, et PII võib ilmuda igal rakul sadadest veergudest ja tuhandetest ridadest. Veeru päised annavad konteksti signaalid ("SSN", "Email", "Phone"), mida NER mudelid ei saa teksti analüüsist üksinda. Raku väärtused võib talletada numbritena (kuupäevad, sosiaalnumbrid kriipsutamata), mis nõuavad vormingu-teadlikku tõlgendamist. Mitmed lehed võivad sisaldada seotud PII-d, mida tuleb käsitleda järjepidevalt.

CSV

CSV on struktuurilt sarnane Excelile, kuid ilma veeru päiseta paljudes implementatsioonides. Välja väärtused "märkustesse" või "kommentaaride" veergudes on vabateksti ja võib sisaldada PII-d kõrvuti mittePII sisuiga. Kodeerimise probleemid (UTF-8 vs. Latin-1) võivad põhjustada tuvastamise ebaõnnestumise Euroopa PII-ga seotud ASCII-puudus märkidesse.

JSON

Sisestatud struktuur tähendab, et PII võib olla sügavalt kinnistatud (user.address.street.line1). Massiivi väärtused vajavad iteratsiooni. Sama välja nimi erinevate objektide vahel võib omada erinevaid PII omadusi. Skeemi teadlikud analüüsid (teades, et "email" väljad sisaldavad alati e-posti aadresse) tuleb ühendada sisuanalüüsiga põhinevale tuvastamisele.

Miks vormingu järjepidevus on järgimise probleem

GDPR DSAR stsenaarium illustreerib järjepidevuse riski konkreetselt:

Andmete teema esitab DSAR taotluse nõudega kõigist tema kohta käivatest isiklikest andmetest. Järgimise meeskond asub:

  • 3 Word dokumenti (lepingud, kirjavahetus)
  • 2 PDF dokumenti (arved, toe transkriptsioonid)
  • 1 Excel'i arvutustabel (kliendi kontode andmed)
  • 1 CSV eksport (süsteemi juurdepääsu logid)

Järgimise meeskond kasutab tööriista A PDF-ide jaoks (suurepärane katvus), tööriista B Wordi jaoks (hea katvus, kuid kaotab päised/jalgused), Excel makro jaoks XLSX (katvus ilmsed veerud, kaotab vabateksti väljad) ja CSV-le tööriista ei ole (käsitsi ülevaatus).

Andmete teema saab anonymiseeritud paketi. Excel'i arvutustabelis "juhataja märkused" vabateksti veerg ei olnud makro poolt töödeldud. Word dokumentides pealekiri aadress lehe päises oli makro B poolt kaotamata. Mõlemad üksused sisaldavad PII-d, mille andmete teema kirjutatud näitab, et nad taotlesid anonymiseerida.

GDPR artikli 17 (õigus kustutamisele) või artikli 15 (juurdepääsu õigus) alusel on järgimise meeskond tootnud mittetäieliku DSAR vastuse. Kui andmete teema või DPA avastab vahejäägi, on vastuolulised tööriistade kasutused kaasanud teguri järgimise puudujäägi.

Vormingjärgejääga järgimise nõuanne

Kõige rangema DSAR järgimise raamistud määravad mitte ainult seda, millist PII tüüpi tuleb anonymiseerida, kuid ka et samad anonymiseerimise standardid peavad olema rakendatud antud vastuse kõigis vormingutes.

See tähendab:

  • Sama üksuse tüübid Word, PDF, Excel, CSV ja JSON puhul
  • Samad usalduse tasemed rakendatud
  • Sama asendus märkide kasutamine (ühilduv anonüümse märke dokumentide vahel üksik vastus komplektis)
  • Üksik auditeerida rida kõigist vormingutest vastuses

Üksikplatvorm vormingjärgitus võimaldab konfiguratsiooni eelseadeid, mis kehtivad identsel viisil kõigis vormingutes. "DSAR EU isikute" eelseade, mis on konfigureeritud teie organisatsioonile, kontrollib samad 32 üksuse tüüpi PDF lepingus, Excel'i kliendi kirjes ja CSV süsteemi logis — kuna sama mootor käsitleb kõiki kolme.

Segatvormingute kogumite hooajast töötlemist

GDPR järgimise suurte mahtude jaoks peab koguprotsesseerimine käsitlema segatvormingute komplekte üksuse:

Sissetulek: Kaust sisaldab 15 faili erinevate vormingute (PDF, DOCX, XLSX, CSV) üheks andmeid sisaldava subjekti andmeid

Töötlus:

  • Vormingu tuvastamir iga faili kohta
  • Asjaomane jäedjäär iga vormingu jaoks (PDF teksti ekstraheerimine, DOCX XML jäedjäär, XLSX raku iteratsioon, CSV välja jäedjäär)
  • Sama NLP torujuhe rakendatud ekstraheeritud tekstile kõigist vormingutest
  • Sama eelseade konfiguratsioon rakendatud kõigil batchis failidel
  • Ühilduv anonüümse märkide kogum (kui "John Smith" ilmub 3 erinevates dokumendis, sama asendus märk kasutusel kõigis 3)

Väljund:

  • Anonymiseeritud versioonid kõigist 15 failidest nende algse vormingutes
  • Vormingjärgejääga auditeerida aruandest näitab kõiki tuvastatut üksuseid, dokumendi allikat, usalduse ja võtmete toimingut.

Vormingjärgejääga auditeerida aruandest on järgimise dokumentatsioon: üksik dokument, tõestades, et kõik 15 faili olid töödeldud sama standardiga, samad üksuse katvus, sama konfiguratsiooni all.

DPA auditsete jaoks on see märkimisväärselt kaitsevam kui "töötlesime PDF-id Adobega, Excel makroga ja CSV käsitsi."

Praktiline integratsioon DSAR meeskondade jaoks

Järgimise meeskondade jaoks, kes käsitlevad tavapärast DSAR mahtusid, töövooga ühendatud vormingu tuega:

  1. Kogumine kõigist dokumentidest andmete subjekti jaoks (käsitsi kogumine süsteemidest)
  2. DSAR kogu loomine anonymiseerimisplatvormis (raske kõigist failidest, ei otle vormingut)
  3. Valige "DSAR EU isikute" eelseade (katvus kõigist GDPR nõudlust üksuse tüübidest)
  4. Käivitage kogu töötlus
  5. Laadige anonymiseeritud väljundid ja konsolideeritud auditeerida aruandest
  6. Kontrolli on kvaliteet: spot-kontroll 2-3 dokumenti kogu väljundist
  7. Paketti anonymiseeritud dokumente andmete teema vastusele
  8. Kinni auditeerida aruandest DSAR juhtumi kirjele

Käsitsi kogumine (samm 1) jääb peamise aja kuluks. Samm 2-8 on alla 10 minuti tüüpiline DSAR kogu. Auditeerida aruandest, mis on loodud sammus 5 annab järgimise dokumentatsioon GDPR vastutuse põhimõtte nõuete jaoks.

Allikad:

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.