Endurtakanlegt friðhelgi: Hvers vegna vélanámsteymi þurfa forskilgreiningar, ekki bara skjöl
DPO-yfirmaðurinn samþykkti nafnlægingaráætlunina. Hún nær yfir fjóra þætti: nöfn, netföng, símanúmer og fæðingardagar. Aðferðin er Skipta Um. Áætlunin er fjórar blaðsíður og lifir í samræmisvíkiinu.
Tólf gagnafræðingar lesa hana við upphaf. Sérhver setur upp verkfærið sjálfstætt. Sumir bæta við þjóðarauðkennum. Sumir bæta við IP-tölum. Sumir skipta yfir í Þurrka. Þremur mánuðum síðar eru sett ekki samræmd.
CNIL skoðaði nokkrar gervigreindarfyrirtæki árið 2024. Vandinn: óviðeigandi notkun persónuupplýsinga í líkanasettum. Þeir spurðu ekki bara hvort nafnlæging hafi átt sér stað. Þeir spurðu hversu samkvæmt það hafi verið beitt.
Skjöl eru nauðsynleg. Þau eru ekki nóg. Lagfæringin er forskilgreiningin.
Hvers vegna líkanagagnasett vélanáms þurfa eigin stillingar
Smíði líkanagagnasetta hefur einstaka þarfir. Almennt skjalarnafnlæging deilir þeim ekki.
Skipta Um, ekki Þurrka. Líkön þjálfuð á texta þar sem nöfn verða [ÞURRKAÐ] læra þann tákn sem staðsetningarmerki nafns. Þetta skaðar líkanið. Skipta Um skiptir "Jón Jónsson" út fyrir "Davíð Kristján." Líkanið sér raunveruleg nafnamynstur. Það sér ekki grimunarmerki.
Sama ferli fyrir allar skrár. Gagnasett þar sem 70% nafna er skipt og 30% er [ÞURRKAÐ] sendir blandaðar boðsendingar. Sérhver skrá verður að fara í gegnum sömu skref.
Sama einingalista. Ef gagnasett geymir heilsugögn en fjarlægar nöfn en lætur fæðingardaga vera í sumum skrám skapar holunar. Allir tólf gagnafræðingarnir verða að fjarlægja sömu tegundir.
Engin of-fjarlæging. Að fjarlægja dagsetningar sem eru tímastimplar — ekki fæðingardagar — dregur úr gæðum gagnasetts án samræmisávinnings. Samþykkt forskilgreining segir nákvæmlega hvaða hluti á að fjarlægja.
Endurtakanlegt úttak. Ef gagnasett verður að vera keyrt aftur — segjum, eftir að einingategund sem vantar finnst — gefur forskilgreiningin sama niðurstaða í hvert skipti. Sérsniðnar stillingar gera það ekki.
Vandamálið með tólf gagnafræðinga
Evrópskur FinTech ML-teymi notar gagnasett úr viðskiptavinaskrám. DPO-yfirmaðurinn samþykkti tilganginn — svikagreining — með einni reglu: öll nöfn viðskiptavina, netföng, símanúmer og greiðsluauðkenni verða að vera skipt áður en líkanavinnan hefst.
Án forskilgreininga:
- Einstaklingur 1 fjarlægir nöfn, netföng og símanúmer — en vanrækir greiðsluauðkenni
- Einstaklingur 2 hefur greiðsluauðkenni með en notar Þurrka, ekki Skipta Um
- Einstaklingur 3 fylgir verklagsreglunskjalinu nákvæmlega
- Einstaklingar 4–12 eru mismunandi
Sameinað gagnasett er að hluta til ekki í samræmi og að hluta til of unnið. DPO-yfirmaður getur ekki vottað það.
Með DPO-samþykktri forskilgreiningu:
- DPO-yfirmaðurinn skapar "ML Þróun — Svikagreining" með nákvæmum einingategundum og Skipta Um aðferðinni
- Forskilgreiningin fer til allra tólf einstaklinga með einni reglu: notaðu þetta fyrir allt gagnasettavinnu
- Enginn getur breytt forskilgreiningunni án samþykkis DPO-yfirmanns
Sérhver einstaklingur framleiðir nú sama úttak. Sameinað gagnasett er samræmt. Árleg gervigreindarendurskoðun fer í gegn með núll niðurstöðum. Fyrra árið var með þrjár niðurstöður vegna ósamræmdrar gagnasettavinnu.
GDPR og gervigreindarlagið
Uppfært fyrir 2026
Eiríkslög um gervigreind (EU AI Act) tóku að fullu gildi í ágúst 2024. Þau bæta við reglum um gervigreindarkerfi sem nota persónuupplýsingar fyrir líkanavinnu. Gervigreindarkerfi með mikla áhættu verða að skrá gagnasett sín, þar á meðal hvaða nafnlæging var beitt.
GDPR 5. gr.(1)(b) — markmiðsafmarkunarreglan — bannar notkun persónuupplýsinga án skýrrar lagalegrar grundvallar. CNIL-málin 2024 einblíndu á þessa glufu: upplýsingar safnaðar fyrir eina þjónustu notaðar í líkanavinnu án gilts grundvallar eða nafnlægingar.
Forskilgreiningar hjálpa til við að fullnægja báðum settum reglna:
- Forskilgreiningarnafn og stillingar: skjalaða aðferðin
- Vinnsluskrár: sönnun um að aðferðin var notuð
- DPO-samþykki: skráð samþykki á stillingum
Þetta skapar endurskoðunarslóðina sem báðar lög krefjast. Sjá leiðsögn um þjálfunargögn og ESB-gervigreindarlögin til að fá nákvæmar upplýsingar um 10. gr. skyldur.
Stillingar forskilgreiningar fyrir NLP-líkanagagnasett
Tegundir til að hafa með í flestum NLP-líkanagagnasettum:
- EINSTAKLINGUR — Skipta um með svipuðum nöfnum
- NETFANG — Skipta um með tilbúnum netföngum
- SÍMANÚMER — Skipta um með tilbúnum númerum
- KREDITKORT / IBAN — Skipta Um eða Þurrka
- STAÐSETNING — Skipta um með svipuðum stöðum ef staðsetning skiptir máli; Þurrka ef ekki
- FÆÐINGARDAGUR — Þurrka; aldursflokkun er oft nauðsynleg
Tegundir sem oft eru utanvelts:
- Almennar dagsetningar — tímastimplar hjálpa tímabundnum líkönum
- Nöfn stofnana — hjálpa líkönum sem nefna einingar
- Vefslóðir — hjálpa hlekk- og tilvísanarlíkönum
ML-yfirmaðurinn og DPO-yfirmaðurinn setja þessar reglur í samþykktu forskilgreininguna. Teymisaðilar beita henni. Þeir gera engar stillingaákvarðanir.
Forskilgreiningar sem stofnanarleg minni
Fyrir forskilgreiningar. Rétt einingastillingar lifðu í huga þriggja gagnafræðinga. Þeir höfðu unnið sig í gegnum samræmisyfirferðina. Tveir fóru í Q3. Þekkinguna fór með þeim.
Eftir forskilgreiningar. Stillingarnar lifa í "ML Þróun — Viðskiptavinaskrár v2.1." Útgáfaskráin sýnir hvenær hún var gerð, hvem samþykkti hana og hvað breyttist frá v2.0. Nýir teymisaðilar nota forskilgreininguna og fá alla þekkinguna sem er innbyggð í hana.
Útgáfa 2.1 bætti við IBAN-greiningu eftir að yfirferð fann hana vanrækta. Útgáfa 2.0 var samþykkt í febrúar 2025. Skráin er fullkomin.
Sjá GDPR ML þjálfunar nafnlægingarhandbók til að fá upplýsingar um hvernig vinnsluskrár og DPO-yfirferðarflæði virka.
Forskilgreiningar vs. CNIL-mynstrið
CNIL-gervigreindarmálin 2024 settu skýrt mynstur. Þeir spyrja ekki bara hvað var fjarlægt heldur hvernig það var stjórnað. Samnýtt forskilgreining með DPO-samþykkiskrá og vinnsluskrár svarar þessu beint.
Sérsniddð stillingar gera það ekki. Sama glufa er til í öðrum ESB-DPA-málum sem fylgja CNIL-rök. Sjá CNIL GDPR gervigreindarsamræmishandbók til að fá frekari upplýsingar um CNIL-nálgunina á gervigreind.
Niðurstaða
Skjöl segja teymisaðilum hvað þeir eiga að gera. Forskilgreiningar gera það auðvelt — og knýjanlegt — að gera það á sama hátt í hvert skipti.
Fyrir ML-líkanagagnasett er samræmi bæði lagaleg og tæknileg þörf. Forskilgreiningin uppfyllir báðar samtímis.
DPA-yfirvaldin sem skoða gervigreindarstarfrækslu vilja sönnunargögn um einslæga nafnlægingu. Forskilgreining beitt á sama hátt yfir alla gagnasettavinnu er skýrasta sönnunin sem þú getur gefið þeim.