Ein skrifta er ekki nóg

Hvert gagnafræðiteymi hefur skrifað eitthvað svona:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)

Þetta kemur í stað netfanga. Það er allt sem það gerir. Gagnasafnið inniheldur enn nöfn, símanúmer og sjúklingsnúmer. Það mun enn mistakast við GDPR-endurskoðun.

Bilið á milli "Ég gerði netföng nafnlæg" og "þetta gagnasafn er GDPR-samþykkt" er mikið. Teymi vanmeta það alltaf.

GDPR grein 5(1)(b) er lykilreglan. Hún kallast meginreglan um markmiðstakmörkun. Persónulegar skrár mega aðeins nota í þeim tilgangi sem þær voru safnaðar.

Pantanir viðskiptavina voru safnaðar til að uppfylla pantanir. Ekki til að þjálfa meðmælingarlíkan. Heilsufarsupplýsingar voru safnaðar til meðferðar. Ekki til að þjálfa líkan til að spá fyrir um endurinnlagningu. Könnunarsvör voru safnað til að fá endurgjöf um vörur. Ekki til að þjálfa tilfinningagreinara.

Til að nota þær skrár við þjálfun vélnáms þarf teymi eitt af þremur:

Skýlægt samþykki hvers einstaklings fyrir vélnámstilganginn - erfitt að fá, oft ómögulegt aftur í tímann
Mat á lögmætum hagsmunum sem sýnir að vélnámsnotkun sé samhæf - löglega óvíst, háð DPA
Nafnleynd - að skipta út eða fjarlægja persónulegar upplýsingar svo gagnasafnið sé ekki lengur persónulegt samkvæmt GDPR

Nafnleynd gefur mesta löglegu vissu. Áskorunin er að gera það rétt í hvert skipti.

Vandinn við einstaka skriftur

Teymi sem skrifa nýja Python-skriftu fyrir hvert gagnasafn skapa vandamál sem safnast upp.

Ófullnægjandi umfang. Skrifta sem byggð er fyrir eitt skema missir af nýjum reitum. Klínískar athugasemdaraðir sem bætt var við fyrir sex mánuðum síðan? Ekki í reglulegar segðir. Millinafnareitur? Skriftan meðhöndlar aðeins mynstur fornafns og eftirnafns.

Engin samkvæmni. Gagnasafn A var unnið með script_v1. Gagnasafn B notaði script_v3. Gagnasafn C var unnið af öðrum teymismeðlim. Sameinað þjálfunarsett hefur þrjár mismunandi aðferðir notaðar. DPO getur ekki staðfest það.

Engin endurskoðunarslóð. Skriftan keyrði. Hvað breyttist? Hvaða einingar fundust? Án úrvinnslufrka er samræmi ómögulegt. Þegar DPA-endurskoðandi spyr "hvernig veistu að þetta þjálfunarsett er hreint?" þá er svarið "við keyrðum Python-skriftu" ekki nóg.

Líkanadrift. Regluleg segðarmynstur sem virkuðu árið 2023 missa af nýjum auðkennisformatnum frá 2024. Skriftur uppfæra sig ekki sjálfar.

Gangur í gegnum lotunnarvinnslu

Heilbrigðisþjónusta gervigreindarteymi þarf að gera 8.000 sjúklingaskrár nafnlægar. Bandaríska teymið þarf aðgang frá evrópskum skrifstofum. Schrems II á við - upprunalegar EU-skrár geta ekki farið til bandarískrar innviðabyggðar án viðeigandi verndar.

Hefðbundin leið: Gagnafræðingur skrifar sérsniðna skriftu. Tveir til þrír dagar þróunar. Einn til tveir dagar DPO-yfirferðar. Einn dagur endurtekninga. Samtals: fjórir til sex dagar. ML-verkefnið seinkast.

Leið lotunnarvinnslu:

Flytja 8.000 skrárnar út sem CSV
Hlaða upp í lotunnarvinnslu
Stilla einingsgerðir: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Velja aðferð: Replace (kemur í stað raunverulegar tilbúnar gilda til að varðveita uppbyggingu)
Vinna: 45 mínútur fyrir 8.000 skrár
Hlaða niður hreina CSV
DPO fer yfir úrvinnslu-lýsigögn - einingar fundnar á skrá, aðferðir notaðar: 2 klukkustundir
DPO samþykkir. Flutningur heldur áfram.

Heildartími: 45 mínútur auk 2 klukkustunda DPO-yfirferðar. Í stað fjórir til sex daga.

Sjá leiðbeiningar um þjálfunargögn ESB-gervigreindar um hvernig sömu skref uppfylla skyldur greinar 10.

Replace vs. Redact fyrir vélnámsnotkun

Nafnleyndaragðferðin skiptir máli fyrir líkanagæði.

Redact kemur í stað PII með tákni eins og [REDACTED]. Þetta virkar fyrir PII-greinimódel. Fyrir önnur verkefni - tilfinningar, flokkun, meðmæli - skaðar það. Líkanið lærir að [REDACTED] er sérstakt tákn. Það getur ekki lært af náttúrulegri dreifingu nafna og gilda.

Replace skiptir "Jón Jónsson" út fyrir "Davíð Chen." Það skiptir "jsmith@company.com" út fyrir "dchen@synthetic.com." Uppbygging heldur sér. Einingsstaðsetning, meðmælamynstur, setningaflæði - allt varðveitt. Líkanið lærir af raunhæfum samhengi.

Fyrir vélnámsþjálfunarsett er Replace réttur kosturinn. Líkanið lærir ekki fölsk gildi. Það lærir mynstrin í kringum þau. Það er hvað skiptir máli.

Schrems II og þverþjóðlegir flutningar

Schrems II-dómurinn (CJEU, 2020) ógilt ESB-US Privacy Shield. Upprunalegar EU-skrár geta ekki farið til bandarísks vélnámsinnviða - AWS US-East, GCP US-Central - án viðeigandi flutningsverndar.

Helstu verndarráðstafanirnar þrjár eru:

Staðlaðir samningsákvæðir með mat á flutningsáhrifum
Bindandi fyrirtækjareglar fyrir flutning innan fyrirtækjahóps
Undanþága fyrir nafnlæg gögn - skrár sem gerðar eru réttilega nafnlægar eru ekki lengur persónulegar samkvæmt GDPR og undanþegnar flutningsreglum

Fyrir teymi sem nota bandaríska innviði með EU-upprunasett, fjarlægir nafnleynd Schrems II-vandann. Hrein gagnasafnið er ekki persónulegt. Það getur farið frjálslega.

Þetta er eitt af sterkustu hagnýtu kostum lotunarnafnleyndar. Það gerir meira en að uppfylla GDPR. Það fjarlægir þverþjóðlegar hömlur að fullu.

Fyrir frekari upplýsingar um flutningshömlur, sjá leiðbeiningar um takmarkanir GDPR-tilgangs.

Hvað á að gefa DPO

Þegar þjálfunarsett er sent til DPO-samþykkis, hafðu þessar fimm hlutir meðferðis:

Upprunalýsing. Hvað var upprunalega gagnasafnið? Hvað var söfnunartilgangurinn? Hvaða persónulegar flokkar innihélt það?
Nafnleyndastilling. Hvaða einingsgerðir voru greindar og skipt út? Hvaða aðferð var notuð?
Úrvinnslu-lýsigögn. Einingstalningar á skrá, trúverðugleikastig, heildarfjöldi skráa sem unnið var.
Mat á leifaáhættu. Hverjar eru líkurnar á að einhver einstaklingur gæti verið endurauðkenndur? Fyrir Replace-aðferðar-nafnleynd með 285+ einingsgerðum á skipulagðan texta er þessi líkur mjög lítil.
Ætluð notkun. Hvaða líkan verður þjálfað? Hvað er þjálfunartilgangurinn?

Lotunnarvinnsla gefur hlutum 2 og 3 sjálfvirkt. Hlutir 1, 4 og 5 koma frá gagnafræðingnum.

Sjá anonym.legal lotuna API um hvernig úrvinnslu-lýsigögn eru skilað með hverri vinnslu.

Hvað þú færð

GDPR-samhæf vélnámssett eru náanleg án sérsniðinna skripta, án margra daga tafa og án þess að missa límanagæði.

Replace-aðferðin heldur í náttúrulegar málfræðieiginleika sem skipta máli fyrir NLP-þjálfun. Hún fjarlægir persónulegar upplýsingar sem skapar GDPR-áhættu.

45 mínútur af lotunnarvinnslu er munurinn á seinkuðu samræmisuppgjöri og einfaldri DPO-undirskrift.

Heimildir

Tengdar Greinar

Tæknilegt

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

Byrjaðu Ókeypis Prufu Skoða Eiginleika

GDPR og nafnleynd gagna fyrir vélnám

Ein skrifta er ekki nóg

Vandinn við einstaka skriftur

Gangur í gegnum lotunnarvinnslu

Replace vs. Redact fyrir vélnámsnotkun

Schrems II og þverþjóðlegir flutningar

Hvað á að gefa DPO

Hvað þú færð

Heimildir

Tengdar Greinar

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ertu tilbúinn að vernda gögnin þín?

GDPR og nafnleynd gagna fyrir vélnám

Ein skrifta er ekki nóg

Af hverju takmarkar GDPR þjálfunarnotkun vélnáms

Vandinn við einstaka skriftur

Gangur í gegnum lotunnarvinnslu

Replace vs. Redact fyrir vélnámsnotkun

Schrems II og þverþjóðlegir flutningar

Hvað á að gefa DPO

Hvað þú færð

Heimildir

Tengdar Greinar

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ertu tilbúinn að vernda gögnin þín?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow