anonym.legal

By · Last updated 2026-06-05

Terug naar BlogGDPR & Naleving

Onderzoeks-PII: Screenshots En AVG

Academische papers bevatten regelmatig pandas DataFrames en R-uitvoer met echte patiëntrecords als methodologische voorbeelden. Dit is een AVG-overtreding.

June 5, 20267 min lezen
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Bijgewerkt voor 2026 — AVG-handhaving tegen onderzoeksgroepen is gegroeid. Dit risico blijft gebruikelijk in gepubliceerd werk.

Het Methodologie-Screenshot-Probleem

Veel academische papers bevatten screenshots van analysetools. Het doel is de methode te tonen. Maar die screenshots kunnen echte persoonsrecords onthullen. De meeste onderzoekers merken dit risico niet op.

Hier zijn vier veelvoorkomende gevallen:

  • Een machine learning-paper toont een pandas DataFrame. De eerste 10 rijen bevatten echte patiëntnamen en -ID's.
  • Een klinische studie toont R-uitvoer. Patiëntwaarden zijn zichtbaar op het scherm. Patiënt-ID's zijn zichtbaar in de marge.
  • Een sociale wetenschapspaper toont SPSS-tabellen. Enquêtereacties van echte mensen zijn zichtbaar.
  • Een journaaltutorial toont een Jupyter-notebook. Echte gebruikersrecords dienen als voorbeeldrijen.

In elk geval bedoelde de auteur de methode te tonen. De persoonsrecords waren niet het punt. Ze waren er gewoon om het voorbeeld realistisch te laten aanvoelen.

Maar "niet het punt" betekent niet veilig. AVG-artikel 4(1) stelt dat persoonsgegevens feiten over een geïdentificeerde persoon omvatten. Een patiëntrecord in een gepubliceerde paper is persoonsgegevens. Het maakt niet uit of het in een screenshot staat. Publiceren zonder toestemming of een rechtsgeldige grond onder artikel 6 schendt de AVG.

Zie het AVG-conformiteitsoverzicht voor meer over publicatieregels.

Waarom Dit Juridisch Risico Creëert

Onderzoeksgroepen staan nu voor meer AVG-handhaving. Publicatiefouten zijn een belangrijke trigger. Vier risico's vallen op.

Tijdschriftterugname. Artikel 17 geeft mensen het recht op wissing. Dit geldt ook voor gepubliceerde records. Als iemand hun gegevens in een paper vindt, kunnen ze om verwijdering vragen. Voor een tijdschrift betekent dit vaak een terugname. Terugname schaadt de carrière van een onderzoeker.

Bevindingen van ethische commissies. Ethische commissies beoordelen gepubliceerd werk. Ze controleren op AVG-afstemming. Ze zijn begonnen papers te markeren die persoonsrecords tonen in screenshots. Deze markeringen beïnvloeden toekomstig werk van een onderzoeker.

Schendingen van Data Access Agreements. Onderzoeksdatasets komen met Data Access Agreements. Deze regels bepalen wat gepubliceerd mag worden. Een screenshot met persoonsrecords kan de overeenkomst schenden. Het resultaat is vaak verlies van datasettoegang.

Artikel 89-beperkingen. Artikel 89 staat gebruik van persoonsgegevens voor wetenschap toe. Het versoepelt sommige regels. Maar alleen waar passende waarborgen bestaan. Persoonsrecords tonen in een screenshot zonder de-identificatie is geen waarborg. Het is een inbreuk.

Zie onze beschermings- en waarborgenpagina voor de volledige uitsplitsing.

Hoe Vaak Gebeurt Dit?

Dit probleem is niet zeldzaam. Het beïnvloedt gepubliceerd werk in vele vakgebieden.

Een paar factoren drijven het.

Reproduceerbaarheidsnormen. Tijdschriften willen methodendetails. Onderzoekers gebruiken screenshots om aan deze behoefte te voldoen. Ze controleren niet altijd wat zichtbaar is in elk beeld.

Krap tijdschema. Tijdsdruk leidt tot snelle screenshots. Er is geen tijd om elk beeld te controleren op blootgestelde records.

Lage zichtbaarheid in afbeeldingen. Een DataFrame kan 20 kolommen hebben. Namen en ID's kunnen in een kolom ver rechts staan. De onderzoeker kijkt naar de sleutelkolom, niet de ID-kolom.

Geen controle bij indiening. Tijdschriftportalen voeren formaatcontroles en plagiaatscans uit. Geen controleert afbeeldingen op persoonlijke entiteiten. Niets markeert het probleem voordat de paper live gaat.

Screeningworkflow Voor Onderzoeksgroepen

Een pre-indiening screeningproces kan deze problemen stoppen. Het heeft zeven stappen.

  1. Onderzoeker voltooit het manuscriptconcept met alle figuren.
  2. Concept gaat naar een interne reviewer — de PI of een privacycontact.
  3. Afbeeldings-PII-detectie wordt uitgevoerd op alle afbeeldingsbestanden in het manuscript.
  4. Het rapport markeert afbeeldingen met leesbare tekst die overeenkomt met persoonlijke entiteitspatronen.
  5. Onderzoeker beoordeelt gemarkeerde afbeeldingen.
  6. Voor elke gemarkeerde afbeelding: vervang door een schone screenshot. Wissel patiënt-ID 12847 voor ID 00001. Vervang echte namen door "Patiënt A."
  7. Definitief manuscript gaat naar het tijdschrift met schone afbeeldingen.

Technische opties:

  • Handmatig: Exporteer manuscriptafbeeldingen. Voer batch-PII-detectie uit. Bekijk het rapport.
  • Semi-geautomatiseerd: Gebruik een gedeelde map voor concepten. Voer wekelijks batchverwerking uit op nieuwe bestanden.
  • Workflow-geïntegreerd: Voeg een screeningstap toe aan het indienerportaal.

Screening is snel. Voor een manuscript met 15 figuren duurt afbeeldings-PII-detectie minder dan twee minuten. Een terugname duurt maanden.

Bezoek de FAQ of woordenlijst voor meer over detectiefuncties.

Casestudy: Europese Universiteit

Een onderzoeksgroep voegde afbeeldings-PII-screening toe aan haar manuscriptworkflow. Een bijna-incident triggerde de verandering. Een paper in beoordeling had patiëntnamen in een DataFrame-screenshot.

Wat ze deden:

  • Alle conceptpapers werden verwerkt op afbeeldings-PII vóór tijdschriftindiening.
  • Screening omvatte alle PNG-, JPG- en pdf-figuren in elk concept.
  • Een privacycontact beoordeelde de resultaten.

Resultaten over zes maanden:

  • 23 manuscripten gescreend.
  • 7 manuscripten (30%) hadden ten minste één afbeelding met persoonlijke entiteiten.
  • Gevonden typen: patiëntnamen in DataFrames (4 papers).
  • Gebruikers-ID's die overeenkomen met patiëntformaten (2 papers).
  • E-mailadressen in screenshotmarges (1 paper).
  • Alle 7 gecorrigeerd vóór indiening.
  • Nul terugnameverzoeken of ethische bevindingen na indiening.

De ethische commissie citeert nu deze workflow als een model "passende waarborg" onder artikel 89. Het ondersteunt de toekomstige onderzoeksvrijstellingsaanvragen van de groep.

Lees de oprichtersverklaring om te leren waarom anonym.legal is gebouwd voor dit soort probleem.

Bronnen

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.