anonym.legal

By · Last updated 2026-05-29

Nazaj na blogTehnično

Varovanje podatkovnega toka GDPR: Anonimizacija osebnih podatkov pred shranjevanjem

Oznacevanje stolpcev dbt ni skladnost z GDPR. Neobdelani podatki strank pristanejo v vasi podatkovni skladsnici Snowflake nemaskrirani, preden se uveljavijo politike na podlagi oznak.

May 29, 20268 min branja
data pipelinedbtSnowflakedata warehouseELT anonymizationGDPR engineering

Varen podatkovni tok GDPR: Anonimizacija osebnih podatkov pred shranjevanjem

Posodobljeno za leto 2026

Oznacili ste stolpce z osebnimi podatki v dbt. Nastavili ste dinamicno maskiranje v Snowflake. Cutite se, da ste skladni z GDPR.

Vasa izvorna vsebina se vedno pristane v podatkovni skladsnici nemaskrirana. Maskiranje se izvaja ob poizvedbi. Nemaskrirana vsebina sedi v vasi surovi shemi. Vsakdo z dostopom do surove sheme jo lahko prebere. Vasi modeli dbt so tekli preden so obstajale politike maskiranja. Stare uvozene tabele nikoli niso bile maskirane.

Vrzel med "imamo politike maskiranja" in "nas tok je varen" je tam, kjer se dogajajo krsitve GDPR.

Glejte nas pregled skladnosti za to, kako anonym.legal podpira GDPR.

Kako toki ELT izpostavljajo osebne podatke

Vzorec Extract-Load-Transform (ELT) je zdaj norma. Najprej nalozi izvorne podatke v podatkovni skladsnico. Transformacije pridejo pozneje. Koraki izgledajo takole:

  1. Ekstrakcija: Izvorni sistemi izvozijo vsa polja. Salesforce CRM, Stripe placila, Intercom podpora - vse gre ven.
  2. Nalaganje: Izvorni podatki pristanejo v shemi vnosa podatkovne skladsnice. Snowflake, BigQuery, Redshift delujejo na enak nacin. Vsako polje z osebnimi podatki je vkljuceno.
  3. Transformacija: Modeli dbt ocistijo in zdruzijo podatke za analitiko.

Vnosna plast drzi polne osebne podatke. Imena, e-postni naslovi, telefonske stevilke, placilni podatki, besedilo vstopnic za podporo. V mnogih ekipah imajo inzinirji in analitiki dostop do surove sheme. Lahko poizvedujejo te tabele kadar koli.

Maskiranje na podlagi oznak v Snowflake pomaga ob poizvedbi. Toda le za pravilno nastavljene dolvodni modele. Ne maskira starih uvozenih tabel. Ne blokira neposrednih poizvedb po shemi. Vsak model in nadzorna plosca mora biti oznacena. Ta breme narasca z rastjo sheme.

Anonimizacija pred nalaganjem

Anonimizacija osebnih podatkov na ravni toka odstrani tveganje na surovi plasti. Naredite to preden vsebina pristane v podatkovni skladsnici.

Pristop ETL (anonimizacija pred nalaganjem):

  1. Ekstrakcija iz izvornih sistemov
  2. Potek skozi korak anonimizacije
  3. Nalaganje cistega izhoda v podatkovni skladsnico

Podatkovna skladsnica nikoli ne prejme nemaskriranih osebnih podatkov. Shema vnosa drzi le cisto vsebino. Dolvodni modeli, nadzorne plosce in neposredne poizvedbe vse delujejo s cistim izhodom.

Imata dve glavni poti.

Moznost 1 - Integracija API-ja:

Za sisteme z webhooks ali pretocnimi izvozi usmerite vnose najprej prek API-ja anonym.legal. Vstopnice za podporo, ki zapuscajo Intercom, gredo prek API-ja pred podatkovno skladsnico. Izvozi Stripe storijo enako.

POST /api/anonymize
{
  "text": "Stranka Janez Novak (jnovak@primer.com) je porocala...",
  "entities": ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"],
  "method": "replace"
}

Moznost 2 - Paketna predhodna obdelava:

Za dnevne ali tedenske izvoze datotek CSV/JSON zazenite datoteke skozi paketno obdelavo pred nalaganjem.

Struktura DAG za Airflow:

extract_task >> anonymize_batch_task >> load_to_warehouse_task

Naloga za anonimizacijo nalozi datoteke in dobi nazaj ciste razlicice. Naloga nalaganja obravnava ostalo.

Glejte naso stran o varnostnih praksah za podrobnosti o podizvajalcih in tokovih podatkov.

Kaj oznake stolpcev dbt storijo in cesa ne

dbt vam omogoca oznacevanje stolpcev z osebnimi podatki:

models:
  - name: stg_customers
    columns:
      - name: email
        tags: ['pii', 'email']
      - name: full_name
        tags: ['pii', 'personal_data']

Oznake vam omogocajo:

  • Dokumentiranje, kje so osebni podatki
  • Prozenje dolvodnih politik maskiranja (zahteva nastavitev na ravni podatkovne skladsnice)
  • Sledenje porekla z orodji, kot je Secoda

Oznake pa ne:

  • Maskrirajo uvozenih tabel v surovi shemi
  • Blokirajo neposrednih poizvedb po tabelah
  • Anonimizirajo podatkov ob nalaganju
  • Retroaktivno maskirajo starih podatkov

Oznake stolpcev dbt so orodje za upravljanje. Pokazejo vam, kje so osebni podatki. Ne uveljavljajo "ustreznih tehnicnih ukrepov", ki jih zahteva Clen 32 GDPR.

Vrzel maskiranja Snowflake

Dinamicno maskiranje Snowflake skriva vsebino stolpcev pred uporabniki ob poizvedbi. Je mocen nadzor za produkcijsko uporabo. Toda ima jasne omejitve.

Kljucne omejitve:

  • Vsak nov stolpec potrebuje eksplicitno politiko
  • Spremembe sheme lahko pustijo nove stolpce nemaskirane, dokler ne posodobite politik
  • Vlogi SYSADMIN in ACCOUNTADMIN lahko zaobideta maskiranje
  • Uvozni posli pogosto teko z visokimi privilegiji, ki preskocijo maskiranje
  • Stari podatki, nalozeni pred politikami, so shranjeni v navadni obliki - politike teko ob branju, ne pisanju

Maskiranje ob poizvedbi ni dovolj. Podatki morajo biti cisti, preden so shranjeni.

Dokumentacija skladnosti

Pravilo odgovornosti GDPR zahteva dokaz. Besede niso dovolj. Za inzinirske ekipe to pomeni pisne evidence.

Evidence dejavnosti obdelave (ROPA): Dokumentirajte, da so informacije o strankah anonimizirane preden se nalozijo v analitsko podatkovno skladsnico. Korak anonimizacije je dejavnost obdelave po GDPR.

Opombe o tehnicnih varovalkah: Zapisite, katere vrste entitet cilja vasa linija. Zabelezite uporabljeno metodo anonimizacije. Dnevniki paketnih zagonov vam to dajo zastonj.

Poreklo podatkov: Secoda ali vgrajena linija dbt lahko pokaze, da izvorne tabele teko skozi korak anonimizacije preden dosezejo analiticne modele. To je vasa revizijska sled.

Register prodajalcev: Storitev anonimizacije je podizvajalec. Njihov DPA in pravilnik o zasebnosti morata biti v vasem registru prodajalcev.

Koraki implementacije

Za tok dbt in Snowflake:

Korak 1: Revidirajte surovo plast

Poiscite tabele, ki vsebujejo osebne podatke. Poizvedujte oznake stolpcev dbt ali vase katalog za tabele, oznacene z osebnimi podatki.

Korak 2: Nastavite obseg anonimizacije

Za vsako izvorno tabelo odlocite, kateri stolpci vsebujejo osebne podatke. Nato odlocite, kateri potrebujejo anonimizacijo in kateri psevdonimizacijo. Besedilo vstopnice za podporo: anonimizirajte. ID narocila: psevdonimizirajte za ohranitev kljucev za zdruzevannje. Casovni zig: ohranite za analizo casovnih vrst.

Korak 3: Izberite pot implementacije

Majhna ekipa s paketnimi izvozi: uporabite paketno obdelavo datotek pred nalaganjem. Na voljo inzinirska ekipa: zgradite integracijo API-ja v Airflow ali Prefect.

Korak 4: Testiranje in validacija

Zazenite anonimizacijo na vzorcu pred zagonom. Preverite, ali modeli dbt se delujejo. Nekateri modeli se zdruzijo na e-poste. Ti potrebujejo dosledne nadomestne vrednosti. Psevdonimizacija ohranja kljuce za zdruzevanje. Redakcija jih pokvari.

Korak 5: Obravnavajte stare surove tabele

Vsebina, nalozena preden je bila anonimizacija vzpostavljena, potrebuje retroaktivno obdelavo. Izvozite, anonimizirajte, ponovno nalozite. To je enkratna naloga na tabelo.

Zakljucek

Maskiranje na podlagi oznak vam pokaze, kje so osebni podatki. Ne prepreci uporabnikom z dostopom do sheme, da bi jih brali. Za resnično skladnost z GDPR morajo biti osebni podatki cisti, preden dosezejo podatkovno skladsnico. To naredi vnosno plast enako varno kot produkcijsko plast.

To je tezje kot oznacevanje stolpcev. Toda to je tisto, kar dejansko pomeni "ustrezni tehnicni ukrepi".

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.