Ein skrifta er ekki nóg
Hvert gagnafræðiteymi hefur skrifað eitthvað svona:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)
Þetta kemur í stað netfanga. Það er allt sem það gerir. Gagnasafnið inniheldur enn nöfn, símanúmer og sjúklingsnúmer. Það mun enn mistakast við GDPR-endurskoðun.
Bilið á milli "Ég gerði netföng nafnlæg" og "þetta gagnasafn er GDPR-samþykkt" er mikið. Teymi vanmeta það alltaf.
Af hverju takmarkar GDPR þjálfunarnotkun vélnáms
GDPR grein 5(1)(b) er lykilreglan. Hún kallast meginreglan um markmiðstakmörkun. Persónulegar skrár mega aðeins nota í þeim tilgangi sem þær voru safnaðar.
Pantanir viðskiptavina voru safnaðar til að uppfylla pantanir. Ekki til að þjálfa meðmælingarlíkan. Heilsufarsupplýsingar voru safnaðar til meðferðar. Ekki til að þjálfa líkan til að spá fyrir um endurinnlagningu. Könnunarsvör voru safnað til að fá endurgjöf um vörur. Ekki til að þjálfa tilfinningagreinara.
Til að nota þær skrár við þjálfun vélnáms þarf teymi eitt af þremur:
- Skýlægt samþykki hvers einstaklings fyrir vélnámstilganginn - erfitt að fá, oft ómögulegt aftur í tímann
- Mat á lögmætum hagsmunum sem sýnir að vélnámsnotkun sé samhæf - löglega óvíst, háð DPA
- Nafnleynd - að skipta út eða fjarlægja persónulegar upplýsingar svo gagnasafnið sé ekki lengur persónulegt samkvæmt GDPR
Nafnleynd gefur mesta löglegu vissu. Áskorunin er að gera það rétt í hvert skipti.
Vandinn við einstaka skriftur
Teymi sem skrifa nýja Python-skriftu fyrir hvert gagnasafn skapa vandamál sem safnast upp.
Ófullnægjandi umfang. Skrifta sem byggð er fyrir eitt skema missir af nýjum reitum. Klínískar athugasemdaraðir sem bætt var við fyrir sex mánuðum síðan? Ekki í reglulegar segðir. Millinafnareitur? Skriftan meðhöndlar aðeins mynstur fornafns og eftirnafns.
Engin samkvæmni. Gagnasafn A var unnið með script_v1. Gagnasafn B notaði script_v3. Gagnasafn C var unnið af öðrum teymismeðlim. Sameinað þjálfunarsett hefur þrjár mismunandi aðferðir notaðar. DPO getur ekki staðfest það.
Engin endurskoðunarslóð. Skriftan keyrði. Hvað breyttist? Hvaða einingar fundust? Án úrvinnslufrka er samræmi ómögulegt. Þegar DPA-endurskoðandi spyr "hvernig veistu að þetta þjálfunarsett er hreint?" þá er svarið "við keyrðum Python-skriftu" ekki nóg.
Líkanadrift. Regluleg segðarmynstur sem virkuðu árið 2023 missa af nýjum auðkennisformatnum frá 2024. Skriftur uppfæra sig ekki sjálfar.
Gangur í gegnum lotunnarvinnslu
Heilbrigðisþjónusta gervigreindarteymi þarf að gera 8.000 sjúklingaskrár nafnlægar. Bandaríska teymið þarf aðgang frá evrópskum skrifstofum. Schrems II á við - upprunalegar EU-skrár geta ekki farið til bandarískrar innviðabyggðar án viðeigandi verndar.
Hefðbundin leið: Gagnafræðingur skrifar sérsniðna skriftu. Tveir til þrír dagar þróunar. Einn til tveir dagar DPO-yfirferðar. Einn dagur endurtekninga. Samtals: fjórir til sex dagar. ML-verkefnið seinkast.
Leið lotunnarvinnslu:
- Flytja 8.000 skrárnar út sem CSV
- Hlaða upp í lotunnarvinnslu
- Stilla einingsgerðir: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Velja aðferð: Replace (kemur í stað raunverulegar tilbúnar gilda til að varðveita uppbyggingu)
- Vinna: 45 mínútur fyrir 8.000 skrár
- Hlaða niður hreina CSV
- DPO fer yfir úrvinnslu-lýsigögn - einingar fundnar á skrá, aðferðir notaðar: 2 klukkustundir
- DPO samþykkir. Flutningur heldur áfram.
Heildartími: 45 mínútur auk 2 klukkustunda DPO-yfirferðar. Í stað fjórir til sex daga.
Sjá leiðbeiningar um þjálfunargögn ESB-gervigreindar um hvernig sömu skref uppfylla skyldur greinar 10.
Replace vs. Redact fyrir vélnámsnotkun
Nafnleyndaragðferðin skiptir máli fyrir líkanagæði.
Redact kemur í stað PII með tákni eins og [REDACTED]. Þetta virkar fyrir PII-greinimódel. Fyrir önnur verkefni - tilfinningar, flokkun, meðmæli - skaðar það. Líkanið lærir að [REDACTED] er sérstakt tákn. Það getur ekki lært af náttúrulegri dreifingu nafna og gilda.
Replace skiptir "Jón Jónsson" út fyrir "Davíð Chen." Það skiptir "jsmith@company.com" út fyrir "dchen@synthetic.com." Uppbygging heldur sér. Einingsstaðsetning, meðmælamynstur, setningaflæði - allt varðveitt. Líkanið lærir af raunhæfum samhengi.
Fyrir vélnámsþjálfunarsett er Replace réttur kosturinn. Líkanið lærir ekki fölsk gildi. Það lærir mynstrin í kringum þau. Það er hvað skiptir máli.
Schrems II og þverþjóðlegir flutningar
Schrems II-dómurinn (CJEU, 2020) ógilt ESB-US Privacy Shield. Upprunalegar EU-skrár geta ekki farið til bandarísks vélnámsinnviða - AWS US-East, GCP US-Central - án viðeigandi flutningsverndar.
Helstu verndarráðstafanirnar þrjár eru:
- Staðlaðir samningsákvæðir með mat á flutningsáhrifum
- Bindandi fyrirtækjareglar fyrir flutning innan fyrirtækjahóps
- Undanþága fyrir nafnlæg gögn - skrár sem gerðar eru réttilega nafnlægar eru ekki lengur persónulegar samkvæmt GDPR og undanþegnar flutningsreglum
Fyrir teymi sem nota bandaríska innviði með EU-upprunasett, fjarlægir nafnleynd Schrems II-vandann. Hrein gagnasafnið er ekki persónulegt. Það getur farið frjálslega.
Þetta er eitt af sterkustu hagnýtu kostum lotunarnafnleyndar. Það gerir meira en að uppfylla GDPR. Það fjarlægir þverþjóðlegar hömlur að fullu.
Fyrir frekari upplýsingar um flutningshömlur, sjá leiðbeiningar um takmarkanir GDPR-tilgangs.
Hvað á að gefa DPO
Þegar þjálfunarsett er sent til DPO-samþykkis, hafðu þessar fimm hlutir meðferðis:
- Upprunalýsing. Hvað var upprunalega gagnasafnið? Hvað var söfnunartilgangurinn? Hvaða persónulegar flokkar innihélt það?
- Nafnleyndastilling. Hvaða einingsgerðir voru greindar og skipt út? Hvaða aðferð var notuð?
- Úrvinnslu-lýsigögn. Einingstalningar á skrá, trúverðugleikastig, heildarfjöldi skráa sem unnið var.
- Mat á leifaáhættu. Hverjar eru líkurnar á að einhver einstaklingur gæti verið endurauðkenndur? Fyrir Replace-aðferðar-nafnleynd með 285+ einingsgerðum á skipulagðan texta er þessi líkur mjög lítil.
- Ætluð notkun. Hvaða líkan verður þjálfað? Hvað er þjálfunartilgangurinn?
Lotunnarvinnsla gefur hlutum 2 og 3 sjálfvirkt. Hlutir 1, 4 og 5 koma frá gagnafræðingnum.
Sjá anonym.legal lotuna API um hvernig úrvinnslu-lýsigögn eru skilað með hverri vinnslu.
Hvað þú færð
GDPR-samhæf vélnámssett eru náanleg án sérsniðinna skripta, án margra daga tafa og án þess að missa límanagæði.
Replace-aðferðin heldur í náttúrulegar málfræðieiginleika sem skipta máli fyrir NLP-þjálfun. Hún fjarlægir persónulegar upplýsingar sem skapar GDPR-áhættu.
45 mínútur af lotunnarvinnslu er munurinn á seinkuðu samræmisuppgjöri og einfaldri DPO-undirskrift.