By · Last updated 2026-05-29

Rudi kwa BlogKitaalamu

Mabomba ya GDPR: Kutokuwa na Utambulisho Kabla ya Uhifadhi

Lebo za safu za dbt si kufuata sheria za GDPR. Data ya wateja ya awali inafika kwenye ghala lako la Snowflake bila kufunikwa kabla ya sera zinazotegemea lebo kutumika.

May 29, 20268 dakika kusoma
data pipelinedbtSnowflakedata warehouseELT anonymizationGDPR engineering

Mabomba Salama ya GDPR: Kutokuwa na Utambulisho wa PII Kabla ya Uhifadhi

Imesasishwa kwa 2026

Uliweka lebo safu zako za PII katika dbt. Uliunda ufunikaji wa nguvu katika Snowflake. Unahisi unazingatia GDPR.

Maudhui yako ya chanzo bado yanafika kwenye ghala bila kufunikwa. Ufunikaji unafanyika wakati wa hoja. Maudhui yasiyofunikwa yanakaa katika mchakato wako wa awali. Mtu yeyote mwenye upatikanaji wa mchakato wa awali anaweza kuisoma. Modeli zako za dbt zilifanya kazi kabla ya sera za ufunikaji kutokuwepo. Meza za zamani za kuingizwa hazikufunikwa kamwe.

Pengo kati ya "tuna sera za ufunikaji" na "mabomba yetu ni salama" ndipo ukiukaji wa GDPR hutokea.

Angalia muhtasari wetu wa kufuata sheria jinsi anonym.legal inavyounga mkono GDPR.

Jinsi Mabomba ya ELT Yanavyofunua PII

Mfumo wa Extract-Load-Transform (ELT) sasa ni kawaida. Inapakia data ya chanzo kwenye ghala kwanza. Mabadiliko yanakuja baadaye. Hatua zinaonekana hivi:

  1. Toa: Mifumo ya chanzo inasafirisha sehemu zote. Salesforce CRM, malipo ya Stripe, msaada wa Intercom - kila kitu kinatoka.
  2. Pakia: Data ya chanzo inafika kwenye mchakato wa kuingizwa wa ghala. Snowflake, BigQuery, Redshift zote zinafanya kwa njia ile ile. Kila sehemu ya PII imejumuishwa.
  3. Badilisha: Modeli za dbt zinasafisha na kuunganisha data kwa uchambuzi.

Safu ya kuingizwa ina maelezo kamili ya kibinafsi. Majina, anwani za barua pepe, nambari za simu, maelezo ya malipo, maandishi ya tiketi ya msaada. Katika timu nyingi, wahandisi na wachambuz wana upatikanaji wa mchakato wa awali. Wanaweza kuuliza meza hizi wakati wowote.

Ufunikaji unaotegemea lebo katika Snowflake husaidia wakati wa hoja. Lakini kwa modeli za chini tu zilizowekwa vizuri. Haufuniki meza za zamani za kuingizwa. Hauzuii hoja za mchakato wa moja kwa moja. Kila modeli na dashibodi lazima iwekwe lebo. Mzigo huo unakua kadri mchakato unavyokua.

Kutokuwa na Utambulisho Kabla ya Kupakia

Kutokuwa na utambulisho wa PII katika kiwango cha mabomba kunaondoa hatari ya safu ya awali. Fanya kabla ya maudhui kufika kwenye ghala.

Mbinu ya ETL (kutokuwa na utambulisho kabla ya kupakia):

  1. Toa kutoka kwa mifumo ya chanzo
  2. Pita kupitia hatua ya kutokuwa na utambulisho
  3. Pakia matokeo safi kwenye ghala

Ghala haipokei PII isiyofunikwa. Mchakato wa kuingizwa unashikilia maudhui safi tu. Modeli za chini, dashibodi, na hoja za moja kwa moja zote zinafanya kazi na matokeo safi.

Una njia mbili kuu.

Chaguo 1 - Ujumuishaji wa API:

Kwa mifumo yenye webhooks au usafirishaji wa mkondo, peleka maingizo kupitia API ya anonym.legal kwanza. Tiketi za msaada zinazoondoka Intercom zinapita kupitia API kabla ya ghala. Usafirishaji wa Stripe hufanya vivyo hivyo.

POST /api/anonymize
{
  "text": "Customer John Smith (john@example.com) reported...",
  "entities": ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"],
  "method": "replace"
}

Chaguo 2 - Usindikaji wa kundi wa awali:

Kwa usafirishaji wa faili za CSV/JSON za kila siku au wiki, endesha faili kupitia usindikaji wa kundi kabla ya kupakia.

Muundo wa Airflow DAG:

extract_task >> anonymize_batch_task >> load_to_warehouse_task

Kazi ya kutokuwa na utambulisho inapakia faili na kupata matoleo safi. Kazi ya kupakia inashughulikia zilizobaki.

Angalia ukurasa wetu wa mazoea ya usalama kwa maelezo ya msindikaji mdogo na mtiririko wa data.

Lebo za Safu za dbt Zinafanya na Hazifanyi Nini

dbt inakuruhusu kuweka lebo safu za PII:

models:
  - name: stg_customers
    columns:
      - name: email
        tags: ['pii', 'email']
      - name: full_name
        tags: ['pii', 'personal_data']

Lebo zinakuruhusu:

  • Kuandika mahali PII inaishi
  • Kuanzisha sera za ufunikaji wa chini (inahitaji usakinishaji wa kiwango cha ghala)
  • Kufuatilia mstari wa asili kwa zana kama Secoda

Lebo hazifanyi:

  • Kufunika meza zilizoingizwa katika mchakato wa awali
  • Kuzuia hoja za meza za moja kwa moja
  • Kutokuwa na utambulisho wa data wakati wa kupakia
  • Kufunika data ya zamani nyuma ya wakati

Lebo za safu za dbt ni zana ya utawala. Zinakuonyesha mahali PII ipo. Hazitumii "hatua sahihi za kiufundi" ambazo Ibara ya 32 ya GDPR inahitaji.

Pengo la Ufunikaji wa Snowflake

Ufunikaji wa nguvu wa Snowflake unaficha maudhui ya safu kutoka kwa watumiaji wakati wa hoja. Ni udhibiti imara kwa matumizi ya uzalishaji. Lakini una vikwazo wazi.

Vikwazo kuu:

  • Kila safu mpya inahitaji sera wazi
  • Mabadiliko ya mchakato yanaweza kuacha safu mpya bila kufunikwa hadi usasishe sera
  • Majukumu ya SYSADMIN na ACCOUNTADMIN yanaweza kupita ufunikaji
  • Kazi za kuingiza mara nyingi zinafanya kazi na mamlaka ya juu ambayo inaruka ufunikaji
  • Data ya zamani iliyopakuliwa kabla ya sera kuwekwa imehifadhiwa kwa umbo la wazi - sera zinafanya kazi wakati wa kusoma, si wakati wa kuandika

Ufunikaji wakati wa hoja haitoshi. Data lazima iwe safi kabla ya kuhifadhiwa.

Nyaraka za Kufuata Sheria

Kanuni ya uwajibikaji wa GDPR inahitaji uthibitisho. Maneno hayatoshi. Kwa timu za uhandisi hii inamaanisha rekodi zilizoandikwa.

Rekodi za Shughuli za Usindikaji (ROPA): Andika kwamba habari za wateja zinafanywa bila utambulisho kabla ya kupakia kwenye ghala la uchambuzi. Hatua ya kutokuwa na utambulisho ni shughuli ya usindikaji chini ya GDPR.

Maelezo ya ulinzi wa kiufundi: Andika aina gani za vitengo mabomba yako yanalenga. Kumbuka njia ya kutokuwa na utambulisho iliyotumika. Rekodi za kufanya kazi kwa kundi zinakupa hii bure.

Mstari wa asili wa data: Secoda au mstari wa asili wa ndani wa dbt unaweza kuonyesha kwamba meza za chanzo zinapita kupitia hatua ya kutokuwa na utambulisho kabla ya kufikia modeli za uchambuzi. Hii ndiyo rekodi yako ya ukaguzi.

Usajili wa muuzaji: Huduma ya kutokuwa na utambulisho ni msindikaji mdogo. DPA na sera ya faragha yao lazima iwe katika usajili wako wa muuzaji.

Hatua za Utekelezaji

Kwa mabomba ya dbt na Snowflake:

Hatua ya 1: Kagua safu yako ya awali

Tafuta meza zipi zinashikilia habari za kibinafsi. Uliza lebo zako za safu za dbt au katalogi yako kwa meza zilizowekwa lebo za PII.

Hatua ya 2: Weka wigo wa kutokuwa na utambulisho

Kwa kila meza ya chanzo, amua ni safu zipi zinashikilia PII. Kisha amua zipi zinahitaji kutokuwa na utambulisho na zipi zinahitaji kutokuwa na jina tu. Mwili wa tiketi ya msaada: kutokuwa na utambulisho. Kitambulisho cha agizo: kutokuwa na jina ili kuhifadhi funguo za kuunganisha. Muhuri wa muda: weka kama ilivyo kwa uchambuzi wa mfululizo wa wakati.

Hatua ya 3: Chagua njia ya utekelezaji

Timu ndogo yenye usafirishaji wa kundi: tumia usindikaji wa faili za kundi kabla ya kupakia. Timu ya uhandisi inayopatikana: jenga ujumuishaji wa API katika Airflow au Prefect.

Hatua ya 4: Jaribu na thibitisha

Endesha kutokuwa na utambulisho kwenye sampuli kabla ya kuendelea. Angalia kwamba modeli za dbt bado zinafanya kazi. Modeli zingine zinaungana kwenye barua pepe. Zile zinahitaji thamani thabiti za ubadilishaji. Kutokuwa na jina huhifadhi funguo za kuunganisha. Kufuta kunazivunja.

Hatua ya 5: Shughulikia meza za zamani za awali

Maudhui yaliyopakuliwa kabla ya kutokuwa na utambulisho kuwepo yanahitaji usindikaji nyuma ya wakati. Safirisha, fanya bila utambulisho, pakia tena. Hii ni kazi ya mara moja kwa kila meza.

Hitimisho

Ufunikaji unaotegemea lebo unakuonyesha mahali PII ipo. Hauzuii watumiaji wenye upatikanaji wa mchakato wa kuisoma. Kwa kufuata GDPR kwa kweli, PII lazima iwe safi kabla haijafika kwenye ghala. Hiyo inafanya safu ya kuingizwa kuwa salama kama safu ya uzalishaji.

Hii ni ngumu zaidi kuliko kuweka lebo za safu. Lakini ndivyo "hatua sahihi za kiufundi" inavyomaanisha kweli kweli.

Vyanzo

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.