By · Last updated 2026-06-05

Itzuli BlogeraGDPR & Betetze

Ikerketa PII: Pantaila-argazkiak eta GDPR

Lan akademikoek maiz pandas DataFrame eta R irteerak erakusten dituzte metodologia adibide gisa benetako gaixo erregistroekin. Hona zergatik GDPR urraketa den.

June 5, 20267 min irakurri
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

2026rako eguneratua - Ikerketa-taldeen aurkako GDPR betearazpena hazi egin da. Arrisku hau argitaratutako lanetan ohikoa izaten jarraitzen du.

Metodologia Pantaila-argazkiaren Arazoa

Lan akademiko askok analisi-tresnen pantaila-argazkiak daude. Helburua metodoa erakustea da. Baina pantaila-argazki horiek benetako erregistro pertsonalak agerian utzi ditzakete. Ikerlari gehienek ez dute arrisku hau nabaritzen.

Lau kasu arrunt daude:

  • Ikasketa automatikoko lan batek pandas DataFrame erakusten du. Lehen 10 lerroetan benetako gaixoen izenak eta IDak daude.
  • Ikerketa kliniko batek R irteera erakusten du. Gaixo-balioak pantailan daude. Gaixo IDak marjinean agertzen dira.
  • Gizarte-zientzia lan batek SPSS taulak erakusten ditu. Benetako pertsonetatik inkesta-erantzunak ikusgarri daude.
  • Aldizkari tutorialak Jupyter notebook erakusten du. Benetako erabiltzaile-erregistroak adibide-errenkada gisa agertzen dira.

Kasu bakoitzean, egileak metodoa erakutsi nahi zuen. Erregistro pertsonalak ez ziren helburua. Adibidea errealago sentiarazteko han zeuden bakarrik.

Baina "helburua ez izatea" ez da segurua esan nahi. GDPR 4(1) artikuluak esaten du erregistro pertsonalek identifikatutako pertsonari buruzko gertakari guztiak barne hartzen dituztela. Argitaratutako laneko gaixo-erregistroa informazio pertsonala da. Ez du axola pantaila-argazki batean badago. 6. artikulupeko baimenik edo oinarri legitimorik gabe argitaratzeak GDPR hausten du.

Ikusi GDPR betetze-ikuspegia argitalpen-arauen inguruan gehiago jakiteko.

Zergatik Arrisku Juridikoa Sortzen Duen

Ikerketa-taldeek GDPR betearazpen handiagoa dute orain. Argitalpen-hutsegiteak eragile nagusia dira. Lau arrisku nabarmentzen dira.

Aldizkari erretrakzioa. 17. artikuluak pertsonei ezabatzeko eskubidea ematen die. Hau argitaratutako erregistroei ere aplikatzen zaie. Pertsonak bere xehetasunak lan batean aurkitzen baditu, kentzearen eskaria egin dezake. Aldizkari batentzat, honek maiz erretrakzioa esan nahi du. Erretrakzioak ikerlariengan eragina du karreran.

Etika-batzordearen aurkikuntzak. Etika-batzordeek argitaratutako lana berrikusten dute. GDPR lerrokaduran egiaztatzen dute. Pantaila-argazkietan erregistro pertsonalak erakusten dituzten lanak markatzen hasi dira. Marka horiek eragina dute ikerlariengan etorkizuneko lanean.

Datuen Sarbide Hitzarmenaren urraketak. Ikerketa-datu-multzoek Datuen Sarbide Hitzarmenak dituzte. Arau horiek zein gauza argitara daitekeen adierazten dute. Erregistro pertsonalak dituen pantaila-argazki batek hitzarmena hauts dezake. Emaitza askotan datu-multzo sarbidea galtzea da.

89. artikuluaren mugak. 89. artikuluak informazio pertsonala zientziarako erabiltzea ahalbidetzen du. Arau batzuk arintzen ditu. Baina soilik babes egokiak daudenean. Desidentifikaziorik gabe pantaila-argazki batean erregistro pertsonalak erakustea ez da babesa. Urraketa da.

Ikusi gure babes eta segurtasun-orrialdea azalpen osorako.

Zenbat Maiz Gertatzen Da?

Problema hau arraroa ez da. Argitaratutako lanetan eremu askotan eragina du.

Hainbat faktorek eragiten dute.

Erreproduzgarritasun-arauak. Aldizkariak metodo-xehetasunak nahi dituzte. Ikerlariek pantaila-argazkiak erabiltzen dituzte beharrizan hori betetzeko. Ez dituzte beti irudi bakoitzean zer ikusgarri dagoen egiaztatzen.

Epe estua. Denbora-presioak pantaila-argazki azkarrak ekarri ohi ditu. Ez dago denbora esposatutako erregistroen errepasoa egiteko.

Irudi-ikusgarritasun baxua. DataFrame batek 20 zutabe izan ditzake. Izenak eta IDak eskuinaldeko zutabe batean egon daitezke. Ikerlariak zutabe nagusia begiratzen du, ez ID zutabea.

Bidalketan egiaztapenik ez. Aldizkari-atariek formatu-egiaztapenak eta plagiarismoeskaneatze egiten dituzte. Bat ere ez du irudiak entitate pertsonalengatik egiaztatzen. Ezer ez du arazoa markatu aurretik lana bizirik doan.

Ikerketa-Taldeentzako Eskanatze-Lan-fluxua

Bidalketa aurreko eskanatze-prozesua arazo hauek gelditu ditzake. Zazpi urratsak dauzka.

  1. Ikerlariak ikerlan zirriborroa osatzen du irudi guztiekin.
  2. Zirriborroa barne-berrikustera joaten da - INA edo pribatutasun-kontaktura.
  3. Irudi PII detekzioa eskuizkribuko irudi-fitxategi guztietan exekutatzen da.
  4. Txostenak irakurgarria den testua duten irudiak markatzen ditu entitate pertsonal ereduekin bat datozenak.
  5. Ikerlariak markatutako irudiak berrikusten ditu.
  6. Markatutako irudi bakoitzarentzat: ordezkatu irudi garbi batekin. Trukatu gaixo ID 12847 ID 00001engatik. Ordezkatu benetako izenak "Gaixo A" rekin.
  7. Azken eskuizkribua aldizkariara joaten da irudi garbi batekin.

Aukera teknikoak:

  • Eskuzko: Esportatu eskuizkribuko irudiak. Exekutatu batch PII detekzioa. Berrikusi txostena.
  • Erdi-automatizatua: Erabili zirriborroentzat partekatutako karpeta. Exekutatu batch-prozesatzea astero fitxategi berrietan.
  • Lan-fluxu integratua: Gehitu eskanatze-urratsa aurkezpen-atarira.

Eskanatzea azkarra da. 15 irudiko eskuizkribuentzat, irudi PII detekzioak bi minutu baino gutxiago ematen du. Erretrakzioak hilabeteak behar ditu.

Bisitatu FAQ edo glosarioa detekzio-eginbideen inguruan gehiago jakiteko.

Kasu Azterketa: Europako Unibertsitate

Ikerketa-talde batek irudi PII eskanatzea bere eskuizkribuen lan-fluxuan gehitu zuen. Hurbileko miss-ek aldaketa eragin zuen. Berrikuspean zen lan batek gaixo-izenak zeuzkan DataFrame pantaila-argazki batean.

Egin zutena:

  • Zirriborro-lan guztiak irudi PIIrentzat prozesatu ziren aldizkari bidalketa aurretik.
  • Eskanatzeak zirriborro bakoitzeko PNG, JPG eta PDF irudi guztiak estali zituen.
  • Pribatutasun-kontaktu batek emaitzak berrikusi zituen.

Emaitzak sei hilabetetan:

  • 23 eskuizkribuk eskanatu.
  • 7 eskuizkribu (%30) gutxienez entitate pertsonalak zituen irudi bat zuten.
  • Aurkitutako motak: gaixo-izenak DataFrameetan (4 lan).
  • Gaixo-formatuak bat datozen erabiltzaile IDak (2 lan).
  • Posta-helbideak pantaila-argazkiaren marjinetan (1 lan).
  • 7 guztiak bidalketa aurretik konponduta.
  • Zero erretrakzio-eskaera edo etika-aurkikuntza bidalketa ondoren.

Etika-batzordeak lan-fluxu hau eredu "babes egoki" gisa aipatzen du orain 89. artikulupean. Taldearen etorkizuneko ikerketa-salbuetsien eskaerei laguntzen die.

Irakurri fundatzailearen adierazpena jakiteko zergatik eraiki zen anonym.legal arazo mota honetarako.

Iturburuak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.