Problem fragmentacije, ki ga nihče ne želi spremeniti
Corporate »podatkovni sklad« je kot računalniški muzej: Excel datoteke iz leta 2012, besedilna polja iz starega sistema za upravljanje odnosov s strankami, zaslonske slike v Slacku, PDF-ji iz e-gradiv, JSON zapise iz API-jev, CSV-je iz starega sistema za upravljanje človeških virov.
Vsak format je dedek — in vsak ima svoje pravilo za osebne podatke. Identifikacijska številka v Excelu je niz besedila, ki se najpreprosteje zamenja. V PDF je vgrajena kot bitna slika v redkih primerih, kar zahteva optično prepoznavanje znakov (OCR) pred zamenjavo. V CRM beležkah je del večvrstičnega polja, okrnjene s HTML oznakama ali novimi vrsticami. V JSON je ključ vrednosti, ki zahteva strukturirano redigiranje, ne le tekstno iskanje in zamenjavo.
Kompleksnost, ki se povečuje s tempom
Standardi skladnosti — GDPR, HIPAA, CCPA — ne pravijo ničesar o »PDF-jih« v nasprotju s »tekstom« v nasprotju s »slikami«. Pravila o skladnosti opisujejo podatke. Ne formate. Toda praksa skladnosti je postala praksa oblike.
Večfazna fragmentacija povzroča tri probleme:
1. Nepopolni PII izkazi
Brezplačni nadzor podatkov sledi samo »vnaprej znane« spremenljivke — imena, e-pošta, telefonske številke, naslovi IP. Ničesar o tem, kaj se nahaja v priponkah Excel datoteke, preusmerjenih beležkah, spletnih arhivih ali arhivih besedilnih sporočil. Delo izgubljenih osebnih podatkov (»noben nadzornik ne ve, da sem tam«) je narava fragmentacije.
2. Neskladen nadzor pri premikanju
PDF zamenja besedilo samo znotraj tekstnih plasti PDF. Če je dokument pridobljen iz slike — recimo, skenirano pismo ali zaslonska slike — je zamenjava tekstne plasti PDF brez učinka. Identifikacijska številka ostane v sliki.
3. Neuspešni revidirani nadzor skladnosti
Revizor GDPR sprašuje: »Kako veste, da ste zamenjali vse osebne podatke?« Odgovor je ponavadi »ker je naš sistem sporočil, da je«. Ampak sistem ne ve o sporočilih Slack, e-poštnih prilogah od leta 1995 ali besedilnih poljih v starih tabelah.
Pravilni pristop: Trikrat zamenjaj
Fakts je: vedno soočanja s fragmentiranostjo: preverjanje, zamenjava in revizija v katerikoli obliki.
Znano je tveganje, da zamenjava v enem formatu (besedilo) pusti podatke v drugem (slika). Znano je tveganje, da podatkovna skladica vsebuje več kopij — eno svežo, druge zastarele. Znano je tveganje, da je sistem »varnostni sistem« za zamenjavo, vendar je zapustil podatke prikritega podatkovnega polja.
Velik premik je, da se enkrat sistematično sprašete: »Koliko različnih oblik imamo te podatke?«
Zatim se zares vprašate: »Ali ima vsaka oblika pravilni nadzor zamenjave?"
Morda. Morda tudi ne.