GDPR-ը անվտանգ ալիք. PII-ն անանունացնել մինչ պահեստ
Թարմացված 2026 թ.-ի համար
Դուք պիտակել եք ձեր PII սյունակները dbt-ում: Դուք կազմաձևել եք դինամիկ ծածկում Snowflake-ում: Ձեզ GDPR-ին համապատասխան եք թվում:
Ձեր աղբյուրի բովանդակությունն դեռ գնում է պահեստ՝ անծածկ: Ծածկումն ընթանում է հարցման ժամանակ: Անծածկ բովանդակությունը նստում է ձեր raw-ի սխեմայում: Raw-ի սխեմայի մուտք ունեցող ցանկացած մեկն կարող է կարդալ այն: Ձեր dbt-ի մոդելներն աշխատել են մինչ ծածկման քաղաքականությունն ուժի մեջ էր: Հին ներբեռնած սեղանները երբեք ծածկված չեն եղել:
"Մենք ունենք ծածկման քաղաքականություններ" և "Մեր ալիքն ապահով է" արտահայտությունների միջև եղած բացը GDPR-ի խախտումների վայրն է:
Те же шаги, համապատասխանության ակնարկ կարդացեք, թե ինչպես է anonym.legal-ն աջակցում GDPR-ին:
Ինչպես ELT ալիքները բացահայտում են PII-ն
Extract-Load-Transform (ELT) ձևաչափն արդեն նորմ է: Այն սկզբում բեռնում է աղբյուրի տվյալները պահեստ: Փոխակերպումները հետո են: Քայլերն ունեն հետևյալ տեսք.
- Արդյունահան: Աղբյուր համակարգերն արտահանում են բոլոր դաշտերը: Salesforce CRM, Stripe վճարումներ, Intercom աջակցություն — ամեն ինչ դուրս է գնում:
- Բեռնում: Աղբյուրի տվյալները գնում են պահեստի ենթաշերտ: Snowflake, BigQuery, Redshift-ն բոլորն աշխատում են նույն ձևով: Ամեն PII դաշտ ներառված է:
- Փոխակերպել: dbt-ի մոդելները մաքրում ու միացնում են տվյալներն վերլուծական նպատակների համար:
Վերցնելու շերտն ամբողջական անձնական տեղեկատվություն ունի: Անուններ, էլ. հասցեներ, հեռախոսահամարներ, վճարման մանրամասներ, աջակցության տոմսի տեքստ: Շատ թիմերում ինժեներներն ու վերլուծաբանները raw-ի սխեմայի հասանելիություն ունեն: Նրանք կարող են հարցնել այս սեղաններն ցանկացած ժամանակ:
Snowflake-ի պիտակ-հիմնված ծածկումն օգնում է հարցման ժամանակ: Բայց միայն պատշաճ կարգավորված ներքևի հոսք մոդելների համար: Այն հին ենթաշերտ ներբեռնած սեղաններ չի ծածկում: Այն ուղղակի սխեմայի հարցումներ չի արգելակում: Ամեն մոդել ու վահանակ պիտակված պետք է լինի: Այդ բեռն աճում է սխեմայի հետ:
Մինչ Բեռնում Անանունացնել
PII-ն ալիքի մակարդակով անանունացնելն հեռացնում է raw-ի շերտի ռիսկը: Արեք դա մինչ բովանդակությունը հասնում է պահեստ:
ETL մոտեցում (բեռնից առաջ անանունացում).
- Արդյունահանել աղբյուր համակարգերից
- Անանունացման քայլով անցկացնել
- Մաքուր ելք բեռնել պահեստ
Պահեստն երբեք անծածկ PII չի ստանա: Ենթաշերտը պահում է միայն մաքուր բովանդակություն: Ներքևի հոսք մոդելները, վահանակները, ու ուղղակի հարցումներն բոլորն աշխատում են մաքուր ելքով:
Երկու հիմնական ուղի կա:
Ընտրանք 1 — API ինտեգրացիա.
Վեբ-կեռ կամ հոսող արտահանումով համակարգերի համար, ուղղորդեք մուտքերն անանունացման API-ն anonym.legal-ի միջոցով: Intercom-ից դուրս եկող աջակցության տոմսերն անցնում են API-ն՝ մինչ պահեստ հասնելը: Stripe-ի արտահանումները նույնն անում են:
POST /api/anonymize
{
"text": "Customer John Smith (john@example.com) reported...",
"entities": ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"],
"method": "replace"
}
Ընտրանք 2 — Խմբաքանակ նախնական մշակում.
Օրեկան կամ շաբաթական CSV/JSON ֆայլի արտահանման համար, ֆայլերն անցկացրեք խմբաքանակ մշակման վրայով՝ բեռնումից առաջ:
Airflow DAG-ի կառուցվածք.
extract_task >> anonymize_batch_task >> load_to_warehouse_task
Anonymize-ի առաջադրանքն բեռնում է ֆայլեր ու ստանում հետ մաքուր տարբերակներ: Load-ի առաջադրանքն ստանձնում է մնացածը:
Те же шаги, անվտանգության պրակտիկաները ստուգեք ենթամշակողների ու տվյալների հոսքի մանրամասների համար:
Ի՞նչ անում ու չի անում dbt-ի Սյունակ Պիտակները
dbt-ն թույլ է տալիս PII սյունակներ պիտակել.
models:
- name: stg_customers
columns:
- name: email
tags: ['pii', 'email']
- name: full_name
tags: ['pii', 'personal_data']
Պիտակներն թույլ են տալիս.
- Փաստաթղթել, թե որտեղ է ապրում PII-ն
- Ակտիվ կատարել ներքևի հոսք ծածկման քաղաքականություններ (պահանջում է պահեստ-մակարդակ կարգաձևում)
- Lineage հետևել Secoda-ի նման գործիքներով
Պիտակները չեն անում.
- Raw-ի սխեմայում ներբեռնված սեղաններ ծածկել
- Ուղղակի սեղան հարցումներ արգելել
- Բեռնման ժամանակ տվյալներ անանունացնել
- Հին տվյալներ հետ-ծածկել
dbt-ի սյունակ պիտակները կառավարման գործիք են: Դրանք ցույց են տալիս, թե որտեղ է PII-ն: Դրանք չեն կիրառում GDPR 32-րդ հոդվածի պահանջ «համապատասխան տեխնիկական ուղղությունները»:
Snowflake-ի Ծածկման Բաց
Snowflake-ի դինամիկ ծածկումն հarцan ժամանակ թաքցնում է սյունակ բովանդակությունն օգտատերերից: Դա արտադրական կիրառման ուժեղ վերահսկողություն է: Բայց ունի հստակ սահմաններ:
Հիմնական սահմաններ.
- Ամեն նոր սյունակ բացահայտ քաղաքականության կարիք ունի
- Սխեմայի փոփոխությունները կարող են թողնել նոր սյունակներ անծածկ մինչ քաղաքականությունը թարմացնեք
- SYSADMIN և ACCOUNTADMIN դերերն կարող են շրջանցել ծածկումը
- Ներմուծման աշխատատեղերն հաճախ գործում են բարձր արտոնություններով, որոնք ծածկումն անտեսում են
- Ծառայել ծածկման ձևավորումից հին բեռնված տվյալները պահվում են բնական ձևով — քաղաքականությունները կարդալու ժամանակ են գործում, ոչ թե գրելիս
Հarцan ժամանակ ծածկելը բավարար չէ: Տվյալները պետք է մաքուր լինեն մինչ պահվելը:
Համապատասխանության Փաստաթղթեր
GDPR-ի հաշվետվողականության կանոնը ապացույց է պահանջում: Բառերը բավական չեն: Ճարտարագիտական թիմերի համար սա նշանակում է գրավոր գրառումներ:
Մշակման Գործողությունների Գրառումներ (ROPA): Փաստաթղթեք, որ հաճախորդի տեղեկատվությունն անանունացված է, նախ քան բեռնվի վերլուծական պահեստ: Անանունացման քայլն GDPR-ի ներքո մշակման գործողություն է:
Տեխնիկական երաշխիքի նշումներ: Գրեք, թե ձեր ալիքն ի՞նչ կազմակերպությունների տեսակներ է թիրախավորում: Արձանագրեք կիրառված անանունացման մեթոդը: Խմբաքանակ կատարողի մատյանները դա անվճար են տալիս:
Տվյալների lineage: Secoda-ն կամ dbt-ի ներկառուցված lineage-ն կարող է ցույց տալ, որ աղբյուր սեղանները ոլորվելուց հետ անանունացման քայլի վրայով անցնում են վերլուծական մոդելներ հասնելուց առաջ: Սա ձեր աուդիտի հետքն է:
Վաճառողի ռեգիստր: Անանունացման ծառայությունն ենթամշակող է: Նրանց DPA-ն ու գաղտնիության քաղաքականությունը ձեր վաճառողի ռեգիստրում պետք է լինի:
Իրականացման Քայլեր
dbt-ի ու Snowflake-ի ալիքի համար.
Քայլ 1. Ստուգեք ձեր raw-ի շերտը
Պարզեք, թե ինչ սեղաններ են անձնական տեղեկատվություն ունի: Հարցեք ձեր dbt-ի սյունակ պիտակները կամ ձեր PII-ով պիտակված կատալոգը:
Քայլ 2. Սահմանեք անանունացման շրջանակը
Յուրաքանչյուր աղբյուր սեղանի համար, որոշեք, թե ինչ սյունակներ PII ունեն: Ապա որոշեք, թե ո՞րն է անանունացման ու ո՞րն է կեղծ-անանունացման կարիք ունի: Աջակցության տոմսի մարմին. անանունացնել: Պատվերի ID. կեղծ-անանունացնել, միացման բանալիներ անձեռնմխելի պահելու համար: Ժամանակ-կնիք. անփոփոխ թողնել ժամաշարքի վերլուծական համար:
Քայլ 3. Ընտրեք իրականացման ուղի
Խmbabanowrm kaqaqavorum export. Kiraretk partakayin fail mexajogum minch beroum. Inzhenerayinn tiwm handipaneli. Areri API integratsiya Airflow-um kam Prefect-um.
Քայл 4. Փորձարկեք և վավերացնեք
Anonymizatsyan vor erakel vor live gnalutsyan aveli. Stugek vor dbt modelnerr dzev anen. Vorosh madelner email-ov en mianum. Ounelown harkavak paymanavorum araj-haytn arsek. Kegel-ananunatsumy pachum e miacman banaliay. Redact-y kotorvum e drank:
Քայل 5. Կառավارeq հին raw-ի սեղանները
Անանունացումից առաջ բեռնված բovandakutyunы harkavak mshakman kariq uni. Արtahanel, anonymizavel, verabnevel. Sա mek-andami harkavak e mer seghany:
Եզրակացություն
Պиtак-himnak tsatsagumы tsuyts e, tu worter e aprum PII-y. Ayն chem ardyak vorosh uchachi schema mechatsum karchakneln. Iravakan GDPR hamapataskhanutyun harkavar e PII-ы maknach lini, minch arrives pahest. Aydy karцum e borrakayin mashy nerek harkavak paymany:
Sa aveli barden e, qan syunakavorel. Bayts sranits e nyutn, inchin "haмapataskhanen texnikal metsutiunner" irapev nshanumakaley: