Cum Pipeline-urile ELT Creeaza Expunere PII
Modelul Extract-Load-Transform (ELT) — dominant in ingineria moderna a datelor — incarca datele brute in depozit mai intai, apoi le transforma:
- Extragere: Datele sistemelor sursa (CRM Salesforce, plati Stripe, suport Intercom) sunt extrase cu toate campurile
- Incarcare: Datele brute incarcate in schema bruta a depozitului — Snowflake, BigQuery, Redshift — inclusiv toate campurile PII
- Transformare: Modelele dbt ruleaza pentru a curata, uni si structura datele
Problema: datele brute PII sunt stocate in schema bruta inainte ca orice transformare de confidentialitate sa aiba loc. Oricine cu acces la schema bruta poate vedea PII-ul nemascat — inclusiv contractori, furnizorii de instrumente BI si angajatii care nu ar trebui sa aiba acces.
Solutia: Anonimizarea PII in Stratul de Incarcare
In loc de:
Sursa → Extragere → Incarcare (PII brut) → Transformare → Vizualizari mascate
Implementati:
Sursa → Extragere → Anonimizare PII → Incarcare (date curatate) → Transformare
Instrumentul de anonimizare PII proceseaza datele extrase inainte de incarcare:
- Detecteaza PII in campurile text liber (note, comentarii, campuri de descriere)
- Inlocuieste sau tokenizeaza identificatorii directi
- Incarca datele curatate in depozit
Datele brute PII nu ajung niciodata in depozit — eliminand riscul de expunere la nivelul schemei brute.
Surse: Ghidul de Conformitate GDPR pentru Ingineria Datelor CNIL 2024; dbt Labs privind PII si Depozitele de Date; Orientarile Snowflake privind Conformitatea GDPR 2024