Af hverju eiginuppsetin PII-verkfæri standast ekki reglufylgniúttektir
GDPR krefst sönnunar. Þú verður að sýna fram á að PII-fjarlæging hafi verið gerð á sama hátt í hvert skipti. DPA-endurskoðendur athuga þetta. Þeir vilja sjá skýra, stöðuga aðferð notaða yfir öll gögn.
Presidio í eiginuppsetning hefur raunverulegt vandamál hér. Það er ekki stillingavandamál. Það er grundvallarmörk eiginuppsettra NLP-verkfæra.
Hvað er umhverfisgengni?
Presidio í eiginuppsetning keyrir í þróunarmáli, stigskiptingu og framleiðslu. Hvert þessara getur hegðað sér á annan hátt. Svo sama inntakið getur gefið mismunandi niðurstöður í hverju þeirra.
Þetta heitir umhverfisgengni. Hún hefur fjórar aðalorskar.
Líkanaútgáfugengni
spaCy-líkön eru útgáfustýrð. Líkan en_core_web_lg 3.4.4 og en_core_web_lg 3.5.1 voru þjálfuð á mismunandi gögnum. Þau nota einnig mismunandi hönnun. Svo sama skjalið getur gefið mismunandi NER-niðurstöður með hverri útgáfu.
Algeng uppsetning lítur svona út:
- Þróunarmál:
en_core_web_lg 3.4.4— sett upp við upphaf verkefnis - Stigskipting:
en_core_web_lg 3.5.0— uppfært við reglulega vinnu - Framleiðsla:
en_core_web_lg 3.5.1— uppfært við öryggisplástur
Það eru þrjár uppsetningar. Þrjár líkanaútgáfur. Þrjár mismunandi greininganiðurstöður. Prófanir ná í stigskiptingu. En framleiðsla keyrir annað líkan. Svo bilið leynist.
Háðleikagengni
spaCy 3.4.x og 3.5.x eru mismunandi í hvernig þær skipta upp setningum. Sú breyting hefur áhrif á hvernig nöfn finnast nálægt setningamörkum. Þessar breytingar eru í útgáfuglósum spaCy. En flest teymi athuga þær ekki með tilliti til PII-áhrifa.
Stillingagengni
Skorþröskuldar settir í þróunarmáli ná kannski ekki til framleiðslu. Sérsniðnar orðalistar geta einnig verið mismunandi milli uppsetningar. Þessir munir eru algengir. Þeir eru sjaldan raktar. Sjá GDPR-reglufylgnihandbók okkar til að skilja hvað endurskoðendur leita að.
Vélbúnaðarmunur
Stærðfræði í NLP-líkönum er ekki eins yfir allar örgjörva og skjákort. Neytendafartölva og þjónn geta gefið lítið eitt mismunandi niðurstöður. Svo sum nöfn finnast á einni vél en ekki annarri.
Raunveruleg úttektarniðurstaða
Banki prófaði eiginuppsettan Presidio-búnað sinn.
Prófunaruppsetning: Presidio með spaCy 3.4.4 á stigskiptingarklasa. Búningur: Presidio með spaCy 3.5.1 á framleiðsluklasar.
Þeir keyrðu sömu skjölin í gegnum báðar. Síðan báru þeir niðurstöður saman. Niðurstaðan: 3% skjala höfðu mismunandi PII-fjarlægingarniðurstöður. Sum nöfn greindust í stigskiptingu en ekki í framleiðslu. Sum höfðu mismunandi greindar textaspannar.
Úttektarniðurstaðan var bein: "Fyrirtækið getur ekki sýnt fram á stöðuga notkun tæknilegra PII-fjarlægingarráðstafana vegna uppsetningarspecifics mismuns í greiningarúttak."
GDPR 32. grein krefst viðeigandi tæknilegra ráðstafana. EDPB-reglur um PII-fjarlægingu krefjast samræmis og endurtekjanleika. 3% hlutfall á 100.000 skjöl á mánuði þýðir 3.000 skjöl með misvægar niðurstöður á mánuði. Sum eru falskt neikvæðar. PII sem stigskipting hefði greint helst í lifandi úttak. Þetta er reglufylgnibilun.
Bankinn fluttist síðan í stjórnuð SaaS. Úttektarniðurstaðan var lokuð. Sjá öryggis- og reglufylgnisíðu okkar til að skilja hvernig stjórnaðar uppsetningar meðhöndla þetta.
Af hverju stjórnaðar þjónustur eru frábrugðnar
Stjórnuð þjónusta keyrir eina vélútgáfu. Allir notendur keyra sömu útgáfu á sama tíma. Líkanauppfærslur eru notaðar frá einum stað. Uppsetning er einnig stjórnuð frá einum stað, með fullum breytingaskrá. Vélbúnaður notanda hefur ekki áhrif á niðurstöður.
Svo sama skjal unnið í dag gefur sömu niðurstöðu næsta mánuð. Ef vélútgáfa breyttist er sú breyting skráð og útgáfustýrð.
Munur á endurskoðunarslóð er lykilatriðið.
Endurskoðunarslóð eiginuppsetning:
- "Notaði Presidio 2.2.35 með spaCy
en_core_web_lg 3.5.1á Ubuntu 22.04." - Var þetta sama útgáfa og í stigskiptingu? Óþekkt.
- Hefur líkanið breyst síðan þetta skjal var unnið? Óþekkt nema rakið.
- Er skorþröskuldurinn sá sami og í prófun? Fer eftir stillingastjórnun.
Endurskoðunarslóð stjórnuðar þjónustu:
- "Notaði anonym.legal API, vélútgáfa 4.22.1, á 2025-03-15T14:22:31Z."
- Sama útgáfa fyrir alla notendur? Já.
- Hefur hún breyst? Vélútgáfur eru festar. Útgáfa 4.22.1 þýðir alltaf sömu vélina.
- Er uppsetningin endurtekjanleg? Já. Forskilgreiningarkennimerkið er skráð. Uppsetning við þá útgáfu er hægt að sækja.
Stjórnuð slóðin er skýr. Eiginuppsett slóðin þarf vandvirkni sem flest teymi sleppa.
Hvernig á að bæta samræmi eiginuppsetningar
Ef eiginuppsetning er nauðsynleg geturðu dregið úr gengnistig með fjórum skrefum.
Í fyrsta lagi, festu líkanaútgáfur. Lokaðu nákvæmar líkanaútgáfur í öllum uppsetningarskrám. Lokaðu sjálfvirkum uppfærslum. Rektu útgáfur í uppspretta-stjórnun.
Næst, frystu gámamyndir. Byggðu Docker-myndir með nákvæmar líkanaútgáfur bakaðar inn. Tagaðu hverja mynd með líkanaútgáfu, Presidio-útgáfu og dagsetningu. Uppfærðu ekki grunnmyndir án þess að prófa fyrst.
Einnig, geymdu stillingar í kóða. Geymdu allar Presidio-stillingar í skrám sem eru raktar í uppspretta-stjórnun. Þetta felur í sér þekkjur, skorþröskulda og virk tungumál. Settu upp stillingar með forritinu.
Að lokum, prófaðu yfir uppsetningar. Eftir hvaða uppfærslu sem er, keyrðu fastar prófskjalasafn í gegnum nýja uppsetninguna. Berðu niðurstöður saman við geymd viðmið. Sjálfvirkniskoðaðu þetta. Sjá FAQ fyrir algengar spurningar um sjálfvirkt PII-aðhvarfsprófun.
Þessar ráðstafanir hjálpa. En þær bæta einnig við vinnu. Stjórnuð þjónusta gefur sama samræmi án þessarar aukavinnu.
Niðurstaðan
Stöðugt PII-fjarlæging kemur ekki fram á vörublaðum. En hún verður mikilvæg þegar endurskoðendur biðja um gögn.
Án virkrar umhirðu gengur eiginuppsetin PII-verkfæri á braut. Útgáfubreytingar bæta við þögum bilum. Þessir bilar koma fram sem úttektarniðurstöður.
Stjórnaðar þjónustur veita samræmi að sjálfgefnu. Vélin keyrir frá einum stað. Uppsetning notanda hefur ekki áhrif á niðurstöður. Fyrir teymi sem beinast að reglufylgni er þetta bein kostur.