GDPR-Bideragarria den Pipeline: PII Biltegiratu Aurretik Anonimizatu
2026rako eguneratuta
zure PII zutabeak dbt-n etiketu dituzu. Snowflake-n maskara dinamikoa ezarri duzu. GDPR-bideragarria sentitzen zara.
Zure iturri-edukia biltegiratze-biltegiratze-gordailuan gordin sartzen jarraitzen du. Maskara kontsulta-denboran exekutatzen da. Eduki maskaratu gabea zure eskema gordinean dago. Eskema gordinera sarrera duen nork nahi duenak irakur dezake. Zure dbt modeloak maskara-politikak existitu aurretik exekutatu ziren. Iraganeko iraskitako taulak inoiz ez ziren maskaratu.
"Maskara-politikak ditugu" eta "gure pipeline segurua da" arteko aldea GDPRen urraketekdiraren lekua da.
Ikusi gure betetze-ikuspegi orokorra anonym.legalek nola babesten duen GDPRa.
ELT Piplineek Nola Agertarazten Duten PII
Esportatu-Kargatu-Eraldatu (ELT) eredua da orain arau. Lehenik iturri-datuak biltegian sartzen ditu. Eraldaketak geroago daude. Urratsak honelakoak dira:
- Esportatu: Iturri-sistemek eremu guztiak esportatzen dituzte. Salesforce CRM, Stripe ordainketak, Intercom laguntza -- dena ateratzen da.
- Kargatu: Iturri-datuak biltegi-ingestio-eskeman kokatzen dira. Snowflake, BigQuery, Redshift guztiek modu berdinean funtzionatzen dute. PII eremu guztiak sartuta daude.
- Eraldatu: dbt modeloek datuak garbitzen eta bateratzen dituzte analisirako.
Ingestio-geruzak informazio pertsonal osoa du. Izenak, posta elektronikoko helbideak, telefono-zenbakiak, ordainketa-xehetasunak, laguntza-txartelaren testua. Talde askotan, ingeniariek eta analisilariek eskema gordinera sarrera dute. Noiz nahi duten kontsulta ditzakete taula horiek.
Snowflake-ko etiketa-oinarritutako maskarak kontsulta-denboran laguntzen du. Baina soilik behar bezala konfiguratutako beheranzko modeloetarako. Ez du iraganeko iraskitako taulak maskaratzen. Ez du eskema-kontsulta zuzenak blokeatzen. Modelo eta panel bakoitza etiketu behar da. Karga hori hazten doa eskema hazi ahala.
Kargatu Aurretik Anonimizatu
Pipeline mailan PII anonimizatzeak geruzako arriskua kentzen du. Egin edukia biltegian sartu aurretik.
ETL ikuspegia (kargatze aurreko anonimizazioa):
- Iturri-sistemetatik esportatu
- Anonimizazio-urrats batetik igaro
- Irteera garbia biltegian kargatu
Biltegiak sekula ez du PII maskaratu gabe jasotzen. Ingestio-eskemak eduki garbia bakarrik du. Beheranzko modeloak, panelak eta kontsulta zuzenak eduki garbiarekin lan egiten dute.
Bi bide nagusi dituzu.
1. aukera -- API integrazioa:
Webhookak edo streaming esportazioak dituzten sistemetan, sarrerak anonym.legal APIaren bidez bideratu lehenik. Intercom-etik irteten diren laguntza-txartelak APIaren bidez doaz biltegian sartu aurretik. Stripe esportazioak gauza bera egiten dute.
POST /api/anonymize
{
"text": "John Smith bezeroek (john@example.com) jakinarazi du...",
"entities": ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"],
"method": "replace"
}
2. aukera -- Batch aurreko prozesatzea:
Eguneko edo asteko CSV/JSON fitxategi esportazioetarako, fitxategiak kargatu aurretik batch prozesatzean igaro.
Airflow DAG egitura:
extract_task >> anonymize_batch_task >> load_to_warehouse_task
Anonimizazio-zereginak fitxategiak igotzen ditu eta bertsio garbiak itzultzen ditu. Kargatzeko zeregina gainontzekoa kudeatzen du.
Ikusi gure segurtasun-praktikak orria azpiprozesadorearen eta datu-fluxuaren xehetasunetarako.
dbt Zutabe-Etiketak Zer Egiten Duten eta Ez Duten
dbt-k PII zutabeak etiketatzeko aukera ematen du:
models:
- name: stg_customers
columns:
- name: email
tags: ['pii', 'email']
- name: full_name
tags: ['pii', 'personal_data']
Etiketak honako hauetarako balio dute:
- PII non dagoen dokumentatu
- Beheranzko maskara-politikak abiarazteko (biltegi-maila konfigurazioa eskatzen du)
- Secoda bezalako tresnekin linage jarraipena egiteko
Etiketak ez dituzte:
- Eskema gordineko ingestio-taulak maskaratzen
- Taula-kontsulta zuzenak blokeatzen
- Karga-denboran datuak anonimizatzen
- Datu zaharrak atzeraeraginezko moduan maskaratzen
dbt zutabe-etiketak gobernantzarako tresna dira. PII non dagoen erakusten dute. Ez dituzte GDPR 32. artikuluak eskatzen dituen "neurri tekniko egokiak" aplikatzen.
Snowflake-ko Maskara-Hutsunea
Snowflake-ren maskara dinamikoak zutabe-edukia erabiltzaileengandik ezkutatzen du kontsulta-denboran. Produkzioan erabiltzerakoan kontrol indartsua da. Baina muga argiak ditu.
Muga nagusiak:
- Zutabe berri bakoitzak politika esplizitu bat behar du
- Eskema-aldaketak zutabe berriak maskaratu gabe utzi ditzakete politikak eguneratu arte
- SYSADMIN eta ACCOUNTADMIN rolak maskara saihes dezakete
- Inportazio-lanak askotan pribilegium handiekin exekutatzen dira maskara saltatu dezaketenak
- Politikak ezarri aurretik kargatutako datu zaharrak forma garbien formatuan gordetzen dira -- politikak irakurketa-denboran exekutatzen dira, ez idazketa-denboran
Kontsulta-denboran maskaratzea ez da nahikoa. Datuak biltegiratzen aurretik garbi egon behar dira.
Betetze-Dokumentazioa
GDPRren erantzukizun-arauak froga eskatzen du. Hitzak ez dira nahikoa. Ingeniaritza-taldeentzat, idatzizko erregistroak esan nahi du.
Prozesatze-Jardueren Erregistroak (ROPA): Bezero-informazioa anonimizatzen dela dokumentatu analisi-biltegira kargatu aurretik. Anonimizazio-urratsa GDPRen arabera prozesatze-jarduera bat da.
Neurri teknikoen oharrak: Idatzi zein entitate-mota zuzentzen dituen zure pipelineak. Ohartu erabilitako anonimizazio-metodoa. Batch exekuzio-erregistroek hori doaz doan ematen dute.
Datu-lerroa: Secoda edo dbt-ren barneko lineageak iturri-taulak analisi-modeloetara iritsi aurretik anonimizazio-urrats batetik igarotzen direla erakuts dezakete. Hau zure auditoria-arrastoa da.
Hornitzaile-erregistroa: Anonimizazio-zerbitzua azpiprozesadore bat da. Haien DPA eta pribatutasun-politika zure hornitzaile-erregistroan egon behar dira.
Ezarpen-Urratsak
dbt eta Snowflake pipeline batentzat:
1. urratsa: Zure geruza gordina auditatu
Zein taulek informazio pertsonala duten aurkitu. Kontsultatu zure dbt zutabe-etiketak edo zure PII-etiketatutako taulen katalogoa.
2. urratsa: Anonimizazio-esparrua ezarri
Iturri-taula bakoitzerako, zein zutabek PII duten erabaki. Ondoren, zein anonimizazio eta zein pseudonimizazio behar duten erabaki. Laguntza-txartelaren testua: anonimizatu. Eskaera-IDa: pseudonimizatu bata lotze-giltzak mantentzeko. Denbora-marka: analisirako denbora-serieetarako gorde.
3. urratsa: Ezarpen-bidea aukeratu
Batch esportazioa duen talde txikia: erabili batch fitxategi-prozesatzea kargatze aurretik. Ingeniaritza-taldea eskuragarri: eraiki API integrazioa Airflow edo Prefect-en.
4. urratsa: Probatu eta egiaztatu
Exekutatu anonimizazioa lagin batean zuzenean hasi aurretik. Egiaztatu dbt modeloak oraindik funtzionatzen dutela. Modelo batzuek emailean lotzen dira. Horiek ordezkapen-balio koherenteak behar dituzte. Pseudonimizazioak lotze-giltzak gordetzen ditu. Ezabatzeak apurtzen ditu.
5. urratsa: Taula gordin zaharrak kudeatu
Anonimizazioa egon aurretik kargatutako edukiak berriro prozesatu behar du. Esportatu, anonimizatu, berriro kargatu. Hau taula bakoitzeko behin bakarreko zeregina da.
Ondorioa
Etiketa-oinarritutako maskarak PII non dagoen erakusten du. Ez du eskema-sarreradun erabiltzaileak irakurtzetik uzten. Benetako GDPR betetzeerako, PII garbi egon behar da biltegira iritsi aurretik. Horrek ingestio-geruza produkzio-geruza bezain seguruak egiten ditu.
Zutabe-etiketatzea baino zailagoa da. Baina "neurri tekniko egokiak" esan nahi duena da.