ปัญหา Data Warehouse
องค์กรส่วนใหญ่ pipeline: Raw data → Warehouse → Transform → Analysis
ปัญหา: ข้อมูลลูกค้า raw (ชื่อ, อีเมล, วันเกิด) ถูกนำเข้าใน warehouse ก่อน
dbt tags หรือ Snowflake column masking policies ช่วย แต่: ข้อมูลอยู่ใน warehouse ก่อน policies จะ apply
Privacy-First Pipeline
แนวทาง privacy-first:
Source → PII Detection → Anonymization → Warehouse
ข้อมูลที่ anonymize แล้วเท่านั้นเข้า warehouse ตั้งแต่แรก
การ Implement
- เพิ่ม PII detection step ใน ETL pipeline
- Tokenize หรือ pseudonymize PII ก่อน warehouse load
- เก็บ token-to-real mapping แยกกันด้วย access controls
- Data scientists ทำงานกับ tokenized data
แหล่งที่มา: