anonym.legal
Înapoi la BlogTehnic

Construirea unui Pipeline de Date GDPR-Safe...

Etichetele de coloane dbt nu sunt conformitate GDPR. Datele brute ale clientilor ajung in depozitul dumneavoastra Snowflake fara mascare inainte ca...

April 19, 20268 min citire
data pipelinedbtSnowflakedata warehouseELT anonymizationGDPR engineering

Cum Pipeline-urile ELT Creeaza Expunere PII

Modelul Extract-Load-Transform (ELT) — dominant in ingineria moderna a datelor — incarca datele brute in depozit mai intai, apoi le transforma:

  1. Extragere: Datele sistemelor sursa (CRM Salesforce, plati Stripe, suport Intercom) sunt extrase cu toate campurile
  2. Incarcare: Datele brute incarcate in schema bruta a depozitului — Snowflake, BigQuery, Redshift — inclusiv toate campurile PII
  3. Transformare: Modelele dbt ruleaza pentru a curata, uni si structura datele

Problema: datele brute PII sunt stocate in schema bruta inainte ca orice transformare de confidentialitate sa aiba loc. Oricine cu acces la schema bruta poate vedea PII-ul nemascat — inclusiv contractori, furnizorii de instrumente BI si angajatii care nu ar trebui sa aiba acces.

Solutia: Anonimizarea PII in Stratul de Incarcare

In loc de:

Sursa → Extragere → Incarcare (PII brut) → Transformare → Vizualizari mascate

Implementati:

Sursa → Extragere → Anonimizare PII → Incarcare (date curatate) → Transformare

Instrumentul de anonimizare PII proceseaza datele extrase inainte de incarcare:

  • Detecteaza PII in campurile text liber (note, comentarii, campuri de descriere)
  • Inlocuieste sau tokenizeaza identificatorii directi
  • Incarca datele curatate in depozit

Datele brute PII nu ajung niciodata in depozit — eliminand riscul de expunere la nivelul schemei brute.

Surse: Ghidul de Conformitate GDPR pentru Ingineria Datelor CNIL 2024; dbt Labs privind PII si Depozitele de Date; Orientarile Snowflake privind Conformitatea GDPR 2024

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.