anonym.legal

By · Last updated 2026-06-05

Înapoi la BlogGDPR & Conformitate

Date personale în cercetare: capturi de analiză și GDPR

Articolele academice includ frecvent DataFrame-uri pandas și ieșiri R cu dosare reale ale pacienților ca exemple de metodologie. Iată de ce aceasta constituie o încălcare GDPR.

June 5, 20267 min citire
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Problema capturilor de metodologie

Publicațiile academice și de cercetare au dezvoltat un model de documentare care creează un risc GDPR subestimat: capturi de ecran ale mediilor de analiză a datelor care arată date reale ca parte a demonstrării metodologiei.

Scenariil sunt comune:

  • Un articol de machine learning include o captură a unui DataFrame pandas care arată primele 10 rânduri ale setului de date de antrenare — care conține dosare reale ale pacienților din sursa de date
  • Un articol de analiză a datelor clinice arată ieșire R cu valori individuale ale pacienților într-un tabel rezumat, cu ID-urile pacienților parțial vizibile
  • Un articol de știință socială computațională include tabele de ieșire SPSS care arată valorile individuale ale respondenților la sondaj ca parte a explicării procedurii de analiză
  • Un tutorial de inginerie a datelor publicat într-un jurnal de cercetare include capturi ale notebook-urilor Jupyter cu înregistrări reale ale utilizatorilor folosite ca „date de exemplu” pentru ilustrare

În fiecare caz, autorul nu a intenționat să publice date personale. Captura a fost inclusă pentru a documenta metodologia. Datele personale din captură erau incidentale — acolo pentru a face exemplul concret.

Dar „incidental” nu înseamnă conform. GDPR Articolul 4(1) definește datele personale ca orice informație referitoare la o persoană fizică identificată sau identificabilă. Un dosar de pacient dintr-un articol publicat — chiar și ca captură — este o dată personală. Publicarea sa fără consimțământul pacientului sau alt temei juridic conform Articolului 6 este o încălcare GDPR.

De ce creează aceasta risc juridic concret

Instituțiile de cercetare se confruntă din ce în ce mai mult cu aplicarea GDPR pentru eșecuri de publicare a datelor. Evoluții cheie:

Cereri de retractare a jurnalelor: Dreptul GDPR la ștergere (Articolul 17) se extinde la datele publicate. Dacă un subiect de date descoperă datele sale personale într-un articol publicat, poate solicita ștergerea — care pentru un articol de jurnal înseamnă de obicei retractarea sau o notificare de corecție. Retractarea jurnalului este o consecință profesională semnificativă.

Constatări ale comitetelor de etică în cercetare: Comitetele de etică în cercetare care revizuiesc cercetarea publicată pentru conformitatea GDPR au început să emită constatări pentru articolele care includ date la nivel individual în capturi fără garanții corespunzătoare. Aceste constatări afectează poziția cercetătorilor la comitetele de etică pentru cercetările viitoare.

Încălcări ale Acordurilor de acces la date: Cele mai multe seturi de date de cercetare sunt partajate în temeiul Acordurilor de acces la date care specifică modul în care datele pot fi utilizate și ce poate fi publicat. Includerea datelor la nivel individual în capturi de publicare, chiar și ca miniaturi, poate încălca DAA — cu consecințe incluzând pierderea privilegiilor de acces la date.

Limitările excepției de cercetare GDPR Articolul 89: GDPR Articolul 89 permite prelucrarea datelor personale pentru cercetarea științifică cu obligații reduse — dar numai acolo unde sunt implementate „garanții corespunzătoare”. Publicarea datelor la nivel individual în capturi de metodologie fără anonimizare nu este o garanție corespunzătoare; este o divulgare.

Amploarea problemei

Incidența nu este rară. O revizuire sistematică a articolelor de știința datelor publicate în jurnale de impact ridicat între 2022-2024 ar găsi probabil o proporție semnificativă care conțin imagini cu date la nivel individual vizibile.

Factorii contributori:

Norme de reproductibilitate: Publicarea științifică modernă solicită din ce în ce mai mult ca metodele să fie documentate cu detalii suficiente pentru a reproduce rezultatele. Capturile mediilor de analiză sunt văzute ca satisfăcând această normă.

Viteza publicării: Sub presiunea termenelor, cercetătorii generează capturi rapid fără a revizui fiecare imagine pentru conținut de date.

Vizibilitate scăzută a datelor în imagini: O captură a unui DataFrame cu 20 de coloane și 5 rânduri poate avea nume și ID-uri în coloane periferice la care cercetătorul nu se concentrează când documentează procedura de analiză.

Nicio verificare automată în fluxurile de lucru de trimitere: Portalurile standard de trimitere a jurnalelor efectuează verificări de completitudine, verificări de format și screening de plagiat. Niciuna nu efectuează detectarea datelor personale din imagini.

Implementarea screening-ului pentru grupuri de cercetare

Un flux de lucru practic pentru un grup de cercetare care implementează screening-ul datelor personale din manuscrise:

Protocol pre-trimitere:

  1. Cercetătorul completează ciorna manuscrisului cu toate figurile
  2. Ciorna trimisă pentru screening intern (PI sau revizor desemnat)
  3. Detectarea datelor personale din imagini rulează pe toate fișierele imagine atașate la manuscris
  4. Raportul de detectare identifică: ce imagini conțin text lizibil, ce text corespunde tiparelor de entități de date personale
  5. Cercetătorul revizuiește imaginile marcate
  6. Pentru fiecare imagine marcată: înlocuirea cu o captură corect anonimizată (înlocuirea ID-ului pacientului 12847 cu ID-ul 00001, înlocuirea numelui real cu „Pacientul A”)
  7. Manuscrisul final trimis la jurnal cu capturi anonimizate

Opțiuni de integrare tehnică:

  • Manual: exportarea tuturor imaginilor manuscrisului, rularea detectării în lot a datelor personale din imagini, revizuirea raportului
  • Semi-automatizat: folder dedicat în care sunt depuse ciornele de manuscrise; procesarea în lot săptămânală rulează pe fișierele noi
  • Integrat în flux de lucru: portal de trimitere instituțional cu etapă de screening pre-trimitere

Costul de timp al screening-ului este scăzut: pentru un manuscris tipic cu 15 figuri, detectarea datelor personale din imagini durează sub 2 minute. Costul de timp al unei retractări sau al unei constatări a comitetului de etică se măsoară în luni.

Caz de utilizare: cerința de etică în cercetare a unei universități europene

Un grup de cercetare în știința datelor dintr-o universitate europeană a implementat screening-ul datelor personale din imagini ca parte a fluxului de lucru de trimitere a manuscriselor, după un caz la limită: revizuirea unui articol trimis a detectat numele individuale ale pacienților într-o captură a unui DataFrame care fusese inclusă ca ilustrație a metodologiei.

Implementare:

  • Toate ciornele de articole procesate pentru date personale din imagini înainte de trimiterea la jurnale
  • Screening-ul acoperă toate figurile PNG, JPG și PDF din ciornă
  • Rezultatele revizuite de contactul desemnat al grupului pentru confidențialitatea datelor

Rezultate pe 6 luni:

  • 23 de manuscrise screened înainte de trimitere
  • 7 manuscrise (30%) aveau cel puțin o imagine cu entități de date personale detectabile
  • Tipuri de entități găsite: numele pacienților în DataFrames (4 articole), ID-uri de utilizator corespunzând formatelor de înregistrare a pacienților (2 articole), adrese de e-mail în marginile capturilor (1 articol)
  • Toate 7 corectate înainte de trimitere
  • Zero cereri de retractare post-trimitere sau constatări etice în această perioadă

Comitetul de etică în cercetare al instituției folosește acum acest flux de lucru ca exemplu documentat de „garanții corespunzătoare” în cererile de excepție de cercetare conform GDPR Articolul 89.

Surse:

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.