Մեկ սկրիպտը բավարար չէ

Տվյալների գիտության յուրաքանչյուր թիմ գրել է մոտավորապես այսպիսի բան.

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Սա փոխարինում է էլ. հասցեները: Այն արդյունավետ է միայն դրա համար: Տվյալների հավաքածուն դեռ պահում է անուններ, հեռախոսահամարներ և բժշկական ID-ներ: Այն կձախողվի GDPR-ի աուդիտի ժամանակ:

"Ես անանունացրել եմ էլ. հասցեները" և "այս տվյալների հավաքածուն GDPR-ին համապատասխան է" արտահայտությունների միջև եղած բացը մեծ է: Թիմերը թերագնահատում են այն ամեն անգամ:

GDPR-ի 5(1)(բ) հոդվածը հիմնական կանոնն է: Այն կոչվում է նպատակի սահմանափակման սկզբունք: Անձնական գրառումները կարող են օգտագործվել միայն այն նպատակի համար, որի համար դրանք հավաքվել են:

Հաճախորդի պատվերները հավաքվել են պատվերի կատարման համար: Ոչ թե խորհուրդ տվող մոդելի ուսուցման համար: Բժշկական գրառումները հավաքվել են բուժման համար: Ոչ թե վերաընդունման մոդելի ուսուցման համար: Հարցման պատասխանները հավաքվել են արտադրանքի հետ կապված կարծիքի համար: Ոչ թե տրամադրությունների դասակարգչի ուսուցման համար:

Այդ գրառումները ML ուսուցման համար օգտագործելու համար թիմը կարիք ունի երեք բանից մեկին.

Յուրաքանչյուր անձի բացահայտ համաձայնությունը ML-ի նպատակի համար — դժվար է ստանալ, հաճախ հետ հայացքով անհնար
Օրինական շահերի գնահատումը, որը ցույց է տալիս, որ ML-ի օգտագործումը համատեղելի է — իրավական առումով անորոշ, կախված DPA-ից
Անանունացումը — անձնական մանրամասների փոխարինումը կամ հեռացումը, որպեսզի տվյալների հավաքածուն GDPR-ի ներքո այլևս անձնական չլինի

Պատշաճ անանունացումն ապահովում է ամենամեծ իրավական որոշակիությունը: Մարտահրավերն այն ճիշտ կատարելն է ամեն անգամ:

Մեկ անգամյա սկրիպտների հետ կապված խնդիրը

Այն թիմերը, որոնք յուրաքանչյուր տվյալների հավաքածուի համար նոր Python սկրիպտ են գրում, ստեղծում են բազմաշերտ խնդիրներ:

Թերի ծածկույթ: Մեկ սխեմայի համար կառուցված սկրիպտը բաց է թողնում նոր դաշտեր: Վեց ամիս առաջ ավելացված կլինիկական նշումների սյունակ? Regex-ում չկա: Միջին անվան դաշտ? Սկրիպտը կառավարում է միայն անվան և ազգանվան ձևաչափերը:

Անհամապատասխանություն: A տվյալների հավաքածուն մշակվել է script_v1-ով: B տվյալների հավաքածուն օգտագործել է script_v3: C տվյալների հավաքածուն մշակվել է այլ թիմի անդամի կողմից: Միաձուլված ուսուցման հավաքածուն ունի կիրառված երեք տարբեր մեթոդ: DPO-ն չի կարող հաստատել այն:

Աուդիտի հետք չկա: Սկրիպտն աշխատեց: Ի՞նչ փոխեց այն: Ո՞ր կազմակերպությունները հայտնաբերվեցին: Առանց մշակման գրառումների՝ համապատասխանությունն անհնար է: Երբ DPA-ի աուդիտորն հարցնում է. «Ինչպե՞ս գիտեք, որ այս ուսուցման հավաքածուն մաքուր է», «Մենք Python սկրիպտ ենք գործարկել» պատասխանը բավարար չէ:

Մոդելի շեղում: 2023 թ.-ին աշխատող regex ձևաչափերը բաց են թողնում 2024 թ.-ի նոր ID ձևաչափերը: Սկրիպտները ինքնաթարմացում չեն անում:

Խմբաքանակի մշակման ուղղորդում

Առողջապահության AI թիմը կարիք ունի 8,000 հիվանդի գրառումներ անանունացնել: ԱՄՆ-ի թիմը կարիք ունի EU գրասենյակից մուտք: Schrems II-ն կիրառվում է — EU-ծագման գրառումները չեն կարող գնալ ԱՄՆ ենթակառուցվածք՝ առանց պատշաճ երաշխիքների:

Ավանդական ուղի: Տվյալների ինժեները գրում է հատուկ սկրիպտ: Երկուսից երեք օր մշակման: Մեկից երկու օր DPO-ի ստուգման: Կատարելագործման մեկ օր: Ընդհանուր՝ չորսից վեց օր: ML նախագիծը հետ է ընկնում:

Խմբաքանակի մշակման ուղի.

Արտահանել 8,000 գրառումները CSV-ով
Բեռնել խմբաքանակի մշակման մեջ
Սահմանել կազմակերպությունների տեսակները. PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Ընտրել մեթոդ. Replace (փոխարինում է ռեալիստական սինթետիկ արժեքներ՝ կառուցվածքը պահպանելու համար)
Մշակել. 45 րոպե 8,000 գրառումների համար
Ներբեռնել մաքուր CSV-ը
DPO-ն ստուգում է մշակման մետատվյալները — գրառման կողմից հայտնաբերված կազմակերպություններ, կիրառված մեթոդներ. 2 ժամ
DPO-ն հաստատում է: Փոխանցումն իրականացվում է:

Ուղղակի ժամանակ. 45 րոպե, ավելի DPO-ի ստուգման 2 ժամ: Փոխանակ չորսից վեց օրի:

Те же шаги, կատարման EU AI Act ուսուցման ուղեցույցում նկարագրված են, թե ինչպես 10-րդ հոդվածի պարտավորությունները կատարվում են:

Replace ընդդեմ Redact-ի ML-ի կիրառման համար

Անանունացման մեթոդը կարևոր է մոդելի որակի համար:

Redact փոխարինում է PII-ն [REDACTED] նշանի պես թոքենով: Սա աշխատում է PII-ի հայտնաբերման մոդելների համար: Այլ առաջադրանքների համար — բովանդակություն, դասակարգում, առաջարկ — այն վնաս է հասցնում: Մոդելը սովորում է, որ [REDACTED]-ն հատուկ թոքեն է: Այն չի կարող սովորել անուններից և արժեքների բնական բաշխումից:

Replace փոխարինում է «John Smith»-ը «David Chen»-ով: Փոխարինում է «jsmith@company.com»-ը «dchen@synthetic.com»-ով: Կառուցվածքն անփոփոխ է մնում: Կազմակերպության տեղադրումը, համատեղ հանդիպման ձևաչափերը, նախադասությունների հոսքը — ամեն ինչ պահպանված է: Մոդելն ուսուցում է ռեալիստական համատեքստից:

ML ուսուցման հավաքածուների համար Replace-ը ճիշտ ընտրությունն է: Մոդելը չի սովորում կեղծ արժեքները: Այն սովորում է նրանց շուրջ ձևաչափերը: Դա կարևոր է:

Schrems II-ը և սահմանամերձ փոխանցումները

Schrems II-ի վճիռը (CJEU, 2020) անվավեր է ճանաչել EU-ԱՄՆ Privacy Shield-ը: EU-ծագման գրառումները չեն կարող գնալ ԱՄՆ ML ենթակառուցվածք — AWS US-East, GCP US-Central — առանց պատշաճ փոխանցման երաշխիքների:

Երեք հիմնական երաշխիքներն են.

Ստանդարտ պայմանագրային կետեր՝ փոխանցման ազդեցության գնահատմամբ
Կոռպորատիվ պարտադիր կանոններ ընկերությունների խմբի ներսում փոխանցումների համար
Անանունացված գրառումների ազատ կիրառում — պատշաճ անանունացված ֆայլերն այլևս GDPR-ի ներքո անձնական չեն և ազատ են փոխանցման կանոններից

ԱՄՆ ենթակառուցվածք կիրառող թիմերի համար EU-ծագման հավաքածուների հետ՝ պատշաճ անանունացումը վերացնում է Schrems II-ի խնդիրը: Մաքուր տվյալների հավաքածուն անձնական չէ: Այն կարող է ազատ շարժվել:

Սա խմբաքանակի անանունացման ամենաուժեղ գործնական օգուտներից մեկն է: Այն ոչ միայն բավարարում է GDPR-ը: Այն ամբողջությամբ վերացնում է սահմանամերձ շփոթությունը:

Փոխանցման սահմանափակումների մասին ավելի մանրամասն կարդացեք GDPR-ի նպատակի սահմանափակման ուղեցույցում:

Ի՞նչ տալ DPO-ին

Մաքուր ուսուցման հավաքածուն DPO-ի հաստատման համար ներկայացնելիս ներառեք հետևյալ հինգ կետերը.

Աղբյուրի նկարագրություն: Ի՞նչ էր սկզբնական տվյալների հավաքածուն: Ի՞նչ էր հավաքագրման նպատակը: Ի՞նչ անձնական կատեգորիաներ էր այն պարունակում:
Անանունացման կոնֆիգուրացիա: Ի՞նչ կազմակերպությունների տեսակներ հայտնաբերվեցին և փոխարինվեցին: Ի՞նչ մեթոդ կիրառվեց:
Մշակման մետատվյալներ: Կազմակերպությունների հաշվարկ գրառման կողմից, վստահության գնահատականներ, ընդհանուր մշակված գրառումներ:
Մնացորդային ռիսկի գնահատում: Ո՞րն է հնարավորությունը, որ որևէ անձ կարող է վերաճանաչվել: Replace-մեթոդի անանունացման համար 285+ կազմակերպությունների տեսակներով կառուցվածքային տեքստի վրա՝ այս հավանականությունը շատ ցածր է:
Նախատեսված կիրառում: Ի՞նչ մոդել կուսուցանվի: Ի՞նչ է ուսուցման նպատակը:

Խմբաքանակի մշակումն ապահովում է 2-րդ և 3-րդ կետերն ավտոմատ կերպով: 1-ին, 4-րդ և 5-րդ կետերը գալիս են տվյալների գիտնականից:

Те же шаги, կատարման anonym.legal-ի խմբաքանակի API-ում կարելի է տեսնել, թե ինչպես է մշակման մետատվյալները վերադարձվում յուրաքանչյուր առաջադրանքի հետ:

Ի՞նչ եք ձեռք բերում

GDPR-ին համապատասխան ML հավաքածուները հնարավոր են առանց հատուկ սկրիպտների, բազմօրյա ուշացումների, և մոդելի որակի կորստի:

Replace-ի մեթոդը պահպանում է NLP ուսուցման համար կարևոր բնական լեզվի հատկությունները: Այն հեռացնում է GDPR-ի ռիսկ ստեղծող անձնական մանրամասները:

Խմբաքանակի մշակման 45 րոպեն տարբերությունն է հետաձգված համապատասխանության ստուգման ու ուղղակի DPO-ի հաստատման միջև:

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Տեխնիկական

Պատրաստ եք պաշտպանելու ձեր տվյալները?

Սկսեք PII անանոնիմացնել 285+ կազմակերպության տեսակներով 48 լեզուներով:

Սկսեք անվճար փորձաշրջան Դիտել առանձնահատկությունները

GDPR-ին համապատասխան ML ուսուցման տվյալների անանունացում

Մեկ սկրիպտը բավարար չէ

Մեկ անգամյա սկրիպտների հետ կապված խնդիրը

Խմբաքանակի մշակման ուղղորդում

Replace ընդդեմ Redact-ի ML-ի կիրառման համար

Schrems II-ը և սահմանամերձ փոխանցումները

Ի՞նչ տալ DPO-ին

Ի՞նչ եք ձեռք բերում

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Պատրաստ եք պաշտպանելու ձեր տվյալները?

GDPR-ին համապատասխան ML ուսուցման տվյալների անանունացում

Մեկ սկրիպտը բավարար չէ

Ինչու GDPR-ը սահմանափակում է ML ուսուցման օգտագործումը

Մեկ անգամյա սկրիպտների հետ կապված խնդիրը

Խմբաքանակի մշակման ուղղորդում

Replace ընդդեմ Redact-ի ML-ի կիրառման համար

Schrems II-ը և սահմանամերձ փոխանցումները

Ի՞նչ տալ DPO-ին

Ի՞նչ եք ձեռք բերում

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Պատրաստ եք պաշտպանելու ձեր տվյալները?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow