Zergatik Autobertako PII Tresnek Betetze-Auditoretzetan Huts Egiten Duten
GDPRek froga eskatzen du. Erakutsi behar duzu PII-ren ezabapena beti modu berean egin dela. DPA auditoretzek hori egiaztatzen dute. Datu guztien artean erabilitako metodo argi eta koherente bat ikusi nahi dute.
Autobertako Presidio-k arazo real bat du hemen. Konfigurazio-arazo bat ez da. Autobertako NLP tresnen muga nagusi bat da.
Zer Da Ingurune-Desbiderapena?
Autobertako Presidio garapenean, stage-n eta produkzioan exekutatzen da. Hauetako bakoitzak modu ezberdinean funtzionatu dezake. Beraz, sarrera berdinak emaitza ezberdinak sor ditzake bakoitzean.
Honi ingurune-desbiderapena esaten zaio. Lau arrazoi nagusi ditu.
Eredu-Bertsio Desbiderapena
spaCy ereduak bertsio-aniztunak dira. `en_core_web_lg 3.4.4` eta `en_core_web_lg 3.5.1` ereduak datu ezberdinetan entrenatu ziren. Diseinu ezberdinak ere erabiltzen dituzte. Beraz, dokumentu berdinak NER emaitza ezberdinak sor ditzake bertsio bakoitzarekin.
Ohiko konfigurazio hau da:
- Garapena: `en_core_web_lg 3.4.4` - proiektua hasi zenean instalatua
- Stage: `en_core_web_lg 3.5.0` - ohiko lanaren bitartean eguneratua
- Produkzioa: `en_core_web_lg 3.5.1` - segurtasun-adabaki baten bitartean eguneratua
Hiru konfigurazio. Hiru eredu-bertsio. Hiru detekzio-emaitza ezberdin. Probak stage-n gainditzen dituzte. Baina produkzioak eredu ezberdin bat exekutatzen du. Beraz, aldea ezkutuan geratzen da.
Mendekotasun-Bertsio Desbiderapena
spaCy 3.4.x eta 3.5.x-ek esaldiak nola zatitzen dituzten ezberdina da. Aldaketa horrek izen-detekzioan eragiten du esaldi-hautuetan. Aldaketa hauek spaCy argitaratze-oharretan daude. Baina talde gehienek ez dituzte PII-eraginaren ikuspegitik egiaztatzen.
Konfigurazio-Desbiderapena
Garapenean ezarritako puntuazio-atalaseak baliteke produkziora ez igaro. Hitz-zerrendak pertsonalizatuak ere konfigurazio-artean alda daitezke. Hutsune hauek ohikoak dira. Gutxitan jarraitzen dira. Ikusi gure GDPR betetze-gida auditoretzek zer bilatzen duten jakiteko.
Hardware-Ezberdintasunak
NLP ereduetan matematika ez da identikoa CPU eta GPU guztien artean. Ordenagailu eramangarri batek eta zerbitzari batek emaitza puntuazio pixka bat ezberdinak eman ditzakete. Beraz, zenbait izen makinan aurkitu daitezke baina bestean ez.
Benetako Auditoria-Aurkikuntza
Banku batek bere autobertako Presidio konfigurazioa probatu zuen.
Proba-konfigurazioa: Presidio, spaCy 3.4.4rekin stage klusterrean. Biziko konfigurazioa: Presidio, spaCy 3.5.1rekin produkzio klusterrean.
Dokumentu-multzo bera bi bideetatik exekutatu zuten. Ondoren emaitzak konparatu zituzten. Aurkikuntza: dokumentuen %3 PII-ezabatze emaitza ezberdinak zituen. Zenbait izen stage-n harrapatu ziren baina ez produkzioan. Batzuek hautemandako testu-tarte ezberdinak zituzten.
Auditoriaren aurkikuntza zuzena zen: "Enpresak ezin du erakutsi neurri teknikoen PII-ezabatzearen erabilera koherentea, konfigurazio-espezifikoen detekzio-ekoizpenean ezberdintasunak direla eta."
GDPR 32. artikuluak neurri tekniko egokiak eskatzen ditu. PII-ezabatzeari buruzko EDPB arauak koherentzia eta errepikagarritasuna eskatzen dituzte. Hilero 100.000 dokumentuko %3ko tasak hilero 3.000 dokumentu emaitza inkoherenteekin esan nahi du. Batzuk faltsu-negatiboak dira. Stage-k harrapatuko lituen PII biziko irteeran geratzen da. Hori betetze-hutsa da.
Bankua ondoren kudeatu SaaS-era mugitu zen. Auditoriaren aurkikuntza itxi zen. Ikusi gure segurtasun eta betetze orria kudeatu konfigurazioek hori nola kudeatzen duten jakiteko.
Zergatik Ezberdinak Diren Kudeatu Zerbitzuak
Kudeatu zerbitzu batek motor-bertsio bakarra exekutatzen du. Erabiltzaile guztiek aldi berean bertsio bera exekutatzen dute. Eredu-eguneraketak leku batetik aplikatzen dira. Konfigurazioa ere leku batetik kudeatzen da, aldaketa-erregistro osoaren arabera. Erabiltzailearen hardwareak ez du emaitzetan eragiten.
Beraz, gaur prozesatutako dokumentu berdinak hurrengo hilean emaitza bera ematen du. Motor-bertsioa aldatu bada, aldaketa hori erregistratua eta bersionatua dago.
Auditoria-ibilbidearen ezberdintasuna giltzarri da.
Autobertako auditoria-ibilbidea:
- "Presidio 2.2.35 erabili, spaCy `en_core_web_lg 3.5.1`rekin Ubuntu 22.04-n."
- Hau stage-ko bertsio bera al zen? Ezezaguna.
- Dokumentu hau prozesatu zenetik eredua aldatu al da? Ezezaguna, jarraitu ezean.
- Puntuazio-atalasea testuan berdintsua al da? Konfigurazio-kudeaketaren arabera dago.
Kudeatu zerbitzu-ibilbidea:
- "anonym.legal APIa erabili, motor bertsioa 4.22.1, 2025-03-15T14:22:31Z-n."
- Bertsio bera erabiltzaile guztientzat? Bai.
- Aldatu al da? Motor-bertsioak geldiarazita daude. 4.22.1 bertsioak beti motor bera esan nahi du.
- Konfigurazioa errepikagarria al da? Bai. Aurrezarpenaren IDa erregistratuta dago. Bertsio horretako konfigurazioa berreskuratu daiteke.
Kudeatu ibilbidea argia da. Autobertakoak arreta handiz jarraitzea behar du talde gehienek saltatzen dutena.
Autobertako Koherentzia Nola Hobetu
Autobertakoa beharrezkoa bada, desbiderapena lau urratsez murriztu daiteke.
Lehenenik, eredu-bertsioak geldiarazi. Blokatu bertsioak hedapen-fitxategi guztietan. Eguneraketa automatikoak blokeatu. Bertsioak iturburu-kontrolan jarraitu.
Ondoren, edukiontzi-irudiak izoztu. Docker irudiak eraiki bertan erredututako eredu-bertsioekin. Etiketa bakoitza eredu-bertsioaren, Presidio-bertsioaren eta data batekin etiketatu. Ez eguneratu oinarri-irudiak probatu gabe.
Gainera, konfigurazioa kodean gorde. Presidio-ezarpen guztiak iturburu-kontrolean jarraitutako fitxategietan gorde. Horrek detektagailu guztiak, puntuazio-atalaseak eta aktibatutako hizkuntzak hartzen ditu. Konfigurazioa aplikazioarekin hedatu.
Azkenik, konfigurazio artean probatu. Edozein eguneraketaren ondoren, proba-dokumentu multzo finko bat konfigurazio berrira exekutatu. Emaitzak gordetako erreferentziarekin konparatu. Egiaztapen hau automatizatu. Ikusi FAQ PII erregresio-proba automatizatuari buruzko ohiko galderetarako.
Urrats hauek laguntzen dute. Baina lan gehiago ere gehitzen dute. Kudeatu zerbitzu batek koherentzia bera ematen du lan gehigarri hori gabe.
Ondorioa
PII-ezabatze koherentea ez da produktu-fitxetan agertzen. Baina auditoretzek frogak eskatzen dituztenean garrantzizkoa bihurtzen da.
Arreta aktiborik gabe, autobertako PII tresnak desbideratzen dira. Bertsio-aldaketak ixileko hutsuneak sortzen dituzte. Hutsune horiek auditoria-aurkikuntza gisa agertzen dira.
Kudeatu zerbitzuek lehenetsita koherentzia eskaintzen dute. Motorra leku batetik exekutatzen da. Erabiltzaileen konfigurazioek ez dute emaitzetan eragiten. Betetze-zentratutako taldeentzat, hau abantaila zuzena da.