By · Last updated 2026-05-29

Itzuli BlogeraTeknikoa

GDPR Pipeline: Biltegiratu Aurretik Anonimizatu

dbt zutabe-etiketak ez dira GDPR betetzea. Bezero-datu gordinak Snowflake biltegian sartzen dira maskaratu gabe etiketa-oinarritutako politikak aplikatu baino lehen.

May 29, 20268 min irakurri
data pipelinedbtSnowflakedata warehouseELT anonymizationGDPR engineering

GDPR-Bideragarria den Pipeline: PII Biltegiratu Aurretik Anonimizatu

2026rako eguneratuta

zure PII zutabeak dbt-n etiketu dituzu. Snowflake-n maskara dinamikoa ezarri duzu. GDPR-bideragarria sentitzen zara.

Zure iturri-edukia biltegiratze-biltegiratze-gordailuan gordin sartzen jarraitzen du. Maskara kontsulta-denboran exekutatzen da. Eduki maskaratu gabea zure eskema gordinean dago. Eskema gordinera sarrera duen nork nahi duenak irakur dezake. Zure dbt modeloak maskara-politikak existitu aurretik exekutatu ziren. Iraganeko iraskitako taulak inoiz ez ziren maskaratu.

"Maskara-politikak ditugu" eta "gure pipeline segurua da" arteko aldea GDPRen urraketekdiraren lekua da.

Ikusi gure betetze-ikuspegi orokorra anonym.legalek nola babesten duen GDPRa.

ELT Piplineek Nola Agertarazten Duten PII

Esportatu-Kargatu-Eraldatu (ELT) eredua da orain arau. Lehenik iturri-datuak biltegian sartzen ditu. Eraldaketak geroago daude. Urratsak honelakoak dira:

  1. Esportatu: Iturri-sistemek eremu guztiak esportatzen dituzte. Salesforce CRM, Stripe ordainketak, Intercom laguntza -- dena ateratzen da.
  2. Kargatu: Iturri-datuak biltegi-ingestio-eskeman kokatzen dira. Snowflake, BigQuery, Redshift guztiek modu berdinean funtzionatzen dute. PII eremu guztiak sartuta daude.
  3. Eraldatu: dbt modeloek datuak garbitzen eta bateratzen dituzte analisirako.

Ingestio-geruzak informazio pertsonal osoa du. Izenak, posta elektronikoko helbideak, telefono-zenbakiak, ordainketa-xehetasunak, laguntza-txartelaren testua. Talde askotan, ingeniariek eta analisilariek eskema gordinera sarrera dute. Noiz nahi duten kontsulta ditzakete taula horiek.

Snowflake-ko etiketa-oinarritutako maskarak kontsulta-denboran laguntzen du. Baina soilik behar bezala konfiguratutako beheranzko modeloetarako. Ez du iraganeko iraskitako taulak maskaratzen. Ez du eskema-kontsulta zuzenak blokeatzen. Modelo eta panel bakoitza etiketu behar da. Karga hori hazten doa eskema hazi ahala.

Kargatu Aurretik Anonimizatu

Pipeline mailan PII anonimizatzeak geruzako arriskua kentzen du. Egin edukia biltegian sartu aurretik.

ETL ikuspegia (kargatze aurreko anonimizazioa):

  1. Iturri-sistemetatik esportatu
  2. Anonimizazio-urrats batetik igaro
  3. Irteera garbia biltegian kargatu

Biltegiak sekula ez du PII maskaratu gabe jasotzen. Ingestio-eskemak eduki garbia bakarrik du. Beheranzko modeloak, panelak eta kontsulta zuzenak eduki garbiarekin lan egiten dute.

Bi bide nagusi dituzu.

1. aukera -- API integrazioa:

Webhookak edo streaming esportazioak dituzten sistemetan, sarrerak anonym.legal APIaren bidez bideratu lehenik. Intercom-etik irteten diren laguntza-txartelak APIaren bidez doaz biltegian sartu aurretik. Stripe esportazioak gauza bera egiten dute.

POST /api/anonymize
{
  "text": "John Smith bezeroek (john@example.com) jakinarazi du...",
  "entities": ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"],
  "method": "replace"
}

2. aukera -- Batch aurreko prozesatzea:

Eguneko edo asteko CSV/JSON fitxategi esportazioetarako, fitxategiak kargatu aurretik batch prozesatzean igaro.

Airflow DAG egitura:

extract_task >> anonymize_batch_task >> load_to_warehouse_task

Anonimizazio-zereginak fitxategiak igotzen ditu eta bertsio garbiak itzultzen ditu. Kargatzeko zeregina gainontzekoa kudeatzen du.

Ikusi gure segurtasun-praktikak orria azpiprozesadorearen eta datu-fluxuaren xehetasunetarako.

dbt Zutabe-Etiketak Zer Egiten Duten eta Ez Duten

dbt-k PII zutabeak etiketatzeko aukera ematen du:

models:
  - name: stg_customers
    columns:
      - name: email
        tags: ['pii', 'email']
      - name: full_name
        tags: ['pii', 'personal_data']

Etiketak honako hauetarako balio dute:

  • PII non dagoen dokumentatu
  • Beheranzko maskara-politikak abiarazteko (biltegi-maila konfigurazioa eskatzen du)
  • Secoda bezalako tresnekin linage jarraipena egiteko

Etiketak ez dituzte:

  • Eskema gordineko ingestio-taulak maskaratzen
  • Taula-kontsulta zuzenak blokeatzen
  • Karga-denboran datuak anonimizatzen
  • Datu zaharrak atzeraeraginezko moduan maskaratzen

dbt zutabe-etiketak gobernantzarako tresna dira. PII non dagoen erakusten dute. Ez dituzte GDPR 32. artikuluak eskatzen dituen "neurri tekniko egokiak" aplikatzen.

Snowflake-ko Maskara-Hutsunea

Snowflake-ren maskara dinamikoak zutabe-edukia erabiltzaileengandik ezkutatzen du kontsulta-denboran. Produkzioan erabiltzerakoan kontrol indartsua da. Baina muga argiak ditu.

Muga nagusiak:

  • Zutabe berri bakoitzak politika esplizitu bat behar du
  • Eskema-aldaketak zutabe berriak maskaratu gabe utzi ditzakete politikak eguneratu arte
  • SYSADMIN eta ACCOUNTADMIN rolak maskara saihes dezakete
  • Inportazio-lanak askotan pribilegium handiekin exekutatzen dira maskara saltatu dezaketenak
  • Politikak ezarri aurretik kargatutako datu zaharrak forma garbien formatuan gordetzen dira -- politikak irakurketa-denboran exekutatzen dira, ez idazketa-denboran

Kontsulta-denboran maskaratzea ez da nahikoa. Datuak biltegiratzen aurretik garbi egon behar dira.

Betetze-Dokumentazioa

GDPRren erantzukizun-arauak froga eskatzen du. Hitzak ez dira nahikoa. Ingeniaritza-taldeentzat, idatzizko erregistroak esan nahi du.

Prozesatze-Jardueren Erregistroak (ROPA): Bezero-informazioa anonimizatzen dela dokumentatu analisi-biltegira kargatu aurretik. Anonimizazio-urratsa GDPRen arabera prozesatze-jarduera bat da.

Neurri teknikoen oharrak: Idatzi zein entitate-mota zuzentzen dituen zure pipelineak. Ohartu erabilitako anonimizazio-metodoa. Batch exekuzio-erregistroek hori doaz doan ematen dute.

Datu-lerroa: Secoda edo dbt-ren barneko lineageak iturri-taulak analisi-modeloetara iritsi aurretik anonimizazio-urrats batetik igarotzen direla erakuts dezakete. Hau zure auditoria-arrastoa da.

Hornitzaile-erregistroa: Anonimizazio-zerbitzua azpiprozesadore bat da. Haien DPA eta pribatutasun-politika zure hornitzaile-erregistroan egon behar dira.

Ezarpen-Urratsak

dbt eta Snowflake pipeline batentzat:

1. urratsa: Zure geruza gordina auditatu

Zein taulek informazio pertsonala duten aurkitu. Kontsultatu zure dbt zutabe-etiketak edo zure PII-etiketatutako taulen katalogoa.

2. urratsa: Anonimizazio-esparrua ezarri

Iturri-taula bakoitzerako, zein zutabek PII duten erabaki. Ondoren, zein anonimizazio eta zein pseudonimizazio behar duten erabaki. Laguntza-txartelaren testua: anonimizatu. Eskaera-IDa: pseudonimizatu bata lotze-giltzak mantentzeko. Denbora-marka: analisirako denbora-serieetarako gorde.

3. urratsa: Ezarpen-bidea aukeratu

Batch esportazioa duen talde txikia: erabili batch fitxategi-prozesatzea kargatze aurretik. Ingeniaritza-taldea eskuragarri: eraiki API integrazioa Airflow edo Prefect-en.

4. urratsa: Probatu eta egiaztatu

Exekutatu anonimizazioa lagin batean zuzenean hasi aurretik. Egiaztatu dbt modeloak oraindik funtzionatzen dutela. Modelo batzuek emailean lotzen dira. Horiek ordezkapen-balio koherenteak behar dituzte. Pseudonimizazioak lotze-giltzak gordetzen ditu. Ezabatzeak apurtzen ditu.

5. urratsa: Taula gordin zaharrak kudeatu

Anonimizazioa egon aurretik kargatutako edukiak berriro prozesatu behar du. Esportatu, anonimizatu, berriro kargatu. Hau taula bakoitzeko behin bakarreko zeregina da.

Ondorioa

Etiketa-oinarritutako maskarak PII non dagoen erakusten du. Ez du eskema-sarreradun erabiltzaileak irakurtzetik uzten. Benetako GDPR betetzeerako, PII garbi egon behar da biltegira iritsi aurretik. Horrek ingestio-geruza produkzio-geruza bezain seguruak egiten ditu.

Zutabe-etiketatzea baino zailagoa da. Baina "neurri tekniko egokiak" esan nahi duena da.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.