GDPR-veilige pijplijn: PII anonimiseren vóór opslag
Bijgewerkt voor 2026
U heeft uw PII-kolommen getagd in dbt. U heeft dynamische maskering ingesteld in Snowflake. U voelt zich GDPR-compliant.
Uw broninhoud komt nog steeds ongemaskeerd in het warehouse terecht. Maskering vindt plaats bij querytijd. De ongemaskeerde inhoud staat in uw ruwe schema. Iedereen met toegang tot het ruwe schema kan het lezen. Uw dbt-modellen werden uitgevoerd vóórdat maskeringsbeleidsregels bestonden. Oude ingested tabellen zijn nooit gemaskeerd.
De kloof tussen "we hebben maskeringsbeleid" en "onze pijplijn is GDPR-compliant" is substantieel.
Waarom query-time maskering onvoldoende is
Query-time maskering beschermt gegevens voor de meeste gebruikers. Maar:
- Ruwe schema-toegang: engineers en databeheerders hebben doorgaans toegang tot ruwe schema's. Die zien ongemaskeerde gegevens.
- Logbestanden: query-logs kunnen waarden vastleggen vóór maskering wordt toegepast.
- Historische tabellen: tabellen die zijn aangemaakt vóór maskeringsbeleid bevatten ongemaskeerde gegevens.
- Snapshots: dbt-snapshots slaan historische toestand op. Als die zijn uitgevoerd vóór maskering, bevatten ze ongemaskeerde PII.
GDPR Artikel 32 vereist "passende technische maatregelen." Een architectuur waarbij PII toegankelijk is voor iedereen met ruweschema-toegang voldoet waarschijnlijk niet.
Anonimisering vóór opslag
De juiste benadering: anonimiseer PII vóór het de warehouse bereikt. Ruwe schema's ontvangen nooit de originele waarden.
Pijplijnarchitectuur:
Bron → Extractie → [anonym.legal API] → Getransformeerde laag → Warehouse
Anonimisering vindt plaats in de extract-transform stap. Het warehouse ziet alleen geanonimiseerde waarden. Er zijn geen ruwe PII-waarden om te maskeren.
Integratie:
from anonym_legal import AnonymClient
client = AnonymClient(api_key="...")
def anonymize_before_load(record):
fields_to_anonymize = ["customer_name", "email", "phone", "address"]
for field in fields_to_anonymize:
if field in record and record[field]:
result = client.anonymize(text=record[field])
record[field] = result.anonymized_text
return record
Auditlogboek per record
Voor GDPR-naleving documenteert elk anonimiseringsgeval:
- Welke entiteitstypen werden gevonden
- Welke vervanging werd toegepast
- Tijdstempel van verwerking
Dit audittrail is de technische documentatie die DPIA's en DPA-audits vereisen.
Data-actualiteitsproblemen oplossen
Bestaande warehouses met historische ongemaskeerde gegevens: u moet terug anonimiseren. anonym.legal's batch-API verwerkt grote datasets. Verwerk het historische ruwe schema via batch, vervang de ongemaskeerde tabellen door geanonimiseerde versies.