Konstruiranje varnostnega cevovoda podatkov GDPR: anonimizacija PII, preden doseže vaš podatkovni nasip
Označili ste svoje stolpce PII v dbt. Vaša dinamična politika maskira podatke je konfigurirana v Snowflake. Se počutite skladno GDPR.
Vaši surov podatki še vedno dosežejo nasip nemaski. Politika maskira velja ob času poizvedbe – vendar surov, nemaski podatki obstajajo v vaši surovini plasti, dostopni vsem z dostopom do surovine sheme. Vaši modeli dbt so tekli pred politikami maskira in surovi zgodovinski podatki nikoli niso bili maski.
Razlika med »imamo politike maskira« in »naši podatki so dejansko zaščiteni« je tam, kjer se zgodijo kršitve GDPR.
Kako ELT cevovodi ustvarjajo izpostavljenost PII
Vzorec Extract-Load-Transform (ELT) – dominanten v sodobnem inženirstvu podatkov – natovorimo surove podatke v nasip prvo, nato pa jih transformiramo:
- Pridobite: Podatki o sistemu virov (Salesforce CRM, Stripe plačila, Intercom podporo) se pridobijo z vsemi polji
- Natovorene: Surov podatke natovorijo v nasip surovine – Snowflake, BigQuery, Redshift – vključno z vsemi polji PII
- Preoblikujte: Modeli dbt se izvajajo za čiščenje, povezovanje in agregirano podatkov za analitiko
Surov sloj vsebuje nemaski, polne osebne podatke: imena strank, e-poštne naslove, telefonske številke, informacije o plačilih, vsebino vstopnice podpore. Kdor ima dostop do surovine sheme – in v mnogih organizacijah je to širok nabor inženirjev podatkov in analitikov – ga lahko poizveduje neposredno.
Oznake na osnovi dinamičnega maskira v Snowflake pomaga ob času poizvedke za pravilno ..."