By · Last updated 2026-06-05

بلاگ پر واپس جائیںGDPR اور تعمیل

تحقیقی اشاعت میں ذاتی معلومات: اسکرین شاٹ اور GDPR

علمی مقالے باقاعدگی سے pandas DataFrames اور R output شامل کرتے ہیں جو methodology کی مثال کے طور پر حقیقی مریض ریکارڈ دکھاتے ہیں۔ یہ GDPR خلاف ورزی کیوں ہے۔

June 5, 20267 منٹ پڑھیں
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

2026 کے لیے اپ ڈیٹ شدہ — تحقیقی گروپوں کے خلاف GDPR enforcement بڑھ گئی ہے۔ یہ خطرہ شائع شدہ کاموں میں عام رہتا ہے۔

Methodology Screenshot کا مسئلہ

بہت سے علمی مقالوں میں analysis ٹولز کے screenshots شامل ہوتے ہیں۔ مقصد طریقہ کار دکھانا ہے۔ لیکن وہ screenshots حقیقی ذاتی ریکارڈ ظاہر کر سکتے ہیں۔ زیادہ تر محققین اس خطرے کو نہیں دیکھتے۔

چار عام cases:

  • ایک machine learning مقالہ pandas DataFrame دکھاتا ہے۔ پہلی 10 rows میں حقیقی مریض کے نام اور IDs ہیں۔
  • ایک clinical study R output دکھاتی ہے۔ مریض کی values screen پر ہیں۔ Patient IDs margin میں نظر آتے ہیں۔
  • ایک social science مقالہ SPSS tables دکھاتا ہے۔ حقیقی لوگوں کی survey responses نظر آتی ہیں۔
  • ایک journal tutorial Jupyter notebook دکھاتا ہے۔ حقیقی user records sample rows کے طور پر استعمال ہوتے ہیں۔

ہر case میں مصنف کا ارادہ طریقہ کار دکھانا تھا۔ ذاتی ریکارڈ مقصد نہیں تھے۔ وہ صرف مثال کو حقیقی محسوس کرانے کے لیے تھے۔

لیکن "مقصد نہ ہونا" محفوظ نہیں ہے۔ GDPR Article 4(1) کہتا ہے کہ ذاتی ریکارڈ میں کسی شناخت شدہ شخص کے بارے میں کوئی بھی حقائق شامل ہیں۔ شائع شدہ مقالے میں مریض کا ریکارڈ ذاتی معلومات ہے۔ کوئی فرق نہیں اگر یہ screenshot میں ہے۔ Article 6 کے تحت consent یا قانونی بنیاد کے بغیر اسے شائع کرنا GDPR توڑتا ہے۔

اشاعت کے اصولوں کے بارے میں مزید جانکاری کے لیے GDPR conformance overview دیکھیں۔

یہ قانونی خطرہ کیوں پیدا کرتا ہے

تحقیقی گروپوں کو اب زیادہ GDPR enforcement کا سامنا ہے۔ اشاعت کی ناکامیاں ایک اہم trigger ہیں۔ چار خطرات نمایاں ہیں۔

Journal retraction۔ Article 17 لوگوں کو حذف کا حق دیتا ہے۔ یہ شائع شدہ ریکارڈ پر بھی لاگو ہوتا ہے۔ اگر کوئی شخص مقالے میں اپنی تفصیلات پائے، تو وہ ہٹانے کی درخواست کر سکتا ہے۔ journal کے لیے اس کا مطلب اکثر retraction ہوتا ہے۔ Retraction ایک محقق کے کیریئر کو نقصان پہنچاتی ہے۔

Ethics board findings۔ Ethics boards شائع شدہ کاموں کا جائزہ لیتی ہیں۔ وہ GDPR alignment چیک کرتی ہیں۔ انہوں نے screenshots میں ذاتی ریکارڈ دکھانے والے مقالوں کو flag کرنا شروع کیا ہے۔ یہ flags ایک محقق کے مستقبل کے کام کو متاثر کرتے ہیں۔

Data Access Agreement خلاف ورزیاں۔ تحقیقی datasets Data Access Agreements کے ساتھ آتی ہیں۔ یہ اصول طے کرتے ہیں کہ کیا شائع کیا جا سکتا ہے۔ ذاتی ریکارڈ والا screenshot agreement توڑ سکتا ہے۔ نتیجہ اکثر dataset تک رسائی کا خاتمہ ہے۔

Article 89 کی حدود۔ Article 89 سائنس کے لیے ذاتی معلومات کا استعمال کرنے کی اجازت دیتا ہے۔ یہ کچھ اصول نرم کرتا ہے۔ لیکن صرف وہاں جہاں مناسب safeguards موجود ہوں۔ de-identification کے بغیر screenshot میں ذاتی ریکارڈ دکھانا safeguard نہیں ہے۔ یہ breach ہے۔

یہ کتنی بار ہوتا ہے؟

یہ مسئلہ نادر نہیں ہے۔ یہ بہت سے شعبوں کی شائع شدہ تحقیق کو متاثر کرتا ہے۔

چند عوامل اسے چلاتے ہیں۔

Reproducibility کے اصول۔ Journals کو method details چاہیے۔ محققین اس ضرورت کو پورا کرنے کے لیے screenshots استعمال کرتے ہیں۔ وہ ہمیشہ یہ نہیں چیکتے کہ ہر تصویر میں کیا نظر آ رہا ہے۔

سخت deadlines۔ وقت کا دباؤ تیز screenshots کا سبب بنتا ہے۔ ہر تصویر میں exposed records کا جائزہ لینے کا وقت نہیں ہوتا۔

Images میں کم visibility۔ ایک DataFrame میں 20 columns ہو سکتی ہیں۔ نام اور IDs دور دائیں column میں ہو سکتے ہیں۔ محقق اہم column دیکھتا ہے، ID column نہیں۔

Submission پر کوئی چیک نہیں۔ Journal portals format checks اور plagiarism screens چلاتے ہیں۔ کوئی بھی images میں personal entities چیک نہیں کرتا۔ مقالہ live ہونے سے پہلے مسئلہ flag نہیں ہوتا۔

تحقیقی گروپوں کے لیے Screening Workflow

پیش از submission screening عمل ان مسائل کو روک سکتا ہے۔ اس میں سات مراحل ہیں۔

  1. محقق تمام figures کے ساتھ مسودہ مکمل کرتا ہے۔
  2. مسودہ اندرونی reviewer — PI یا privacy contact — کے پاس جاتا ہے۔
  3. مسودے میں تمام image files پر Image PII detection چلتی ہے۔
  4. رپورٹ ان images کو flag کرتی ہے جن میں قابل پڑھ متن ہے جو personal entity patterns سے ملتا ہے۔
  5. محقق flagged images کا جائزہ لیتا ہے۔
  6. ہر flagged image کے لیے: اسے صاف screenshot سے بدلیں۔ Patient ID 12847 کو ID 00001 سے swap کریں۔ حقیقی نام "Patient A" سے بدلیں۔
  7. آخری مسودہ صاف images کے ساتھ journal کو جاتا ہے۔

تکنیکی اختیارات:

  • دستی: مسودے کی images export کریں۔ batch PII detection چلائیں۔ رپورٹ کا جائزہ لیں۔
  • نیم خودکار: مسودوں کے لیے shared folder استعمال کریں۔ ہر ہفتے نئی فائلوں پر batch پروسیسنگ چلائیں۔
  • Workflow-integrated: submission portal میں screening step شامل کریں۔

کیس اسٹڈی: یورپی یونیورسٹی

ایک تحقیقی گروپ نے اپنے مسودے کے workflow میں image PII screening شامل کی۔ ایک near-miss نے تبدیلی کی۔ جائزے میں ایک مقالے میں DataFrame screenshot میں مریض کے نام تھے۔

انہوں نے کیا کیا:

  • journal submission سے پہلے تمام مسودے کے مقالوں کو image PII کے لیے پروسیس کیا گیا۔
  • Screening ہر مسودے میں تمام PNG، JPG، اور PDF figures کا احاطہ کرتی تھی۔
  • ایک privacy contact نے نتائج کا جائزہ لیا۔

چھ مہینوں میں نتائج:

  • 23 مسودے screen کیے گئے۔
  • 7 مسودوں (30%) میں کم از کم ایک image میں personal entities تھیں۔
  • ملنے والی اقسام: DataFrames میں مریض کے نام (4 مقالے)۔
  • patient formats سے ملتے user IDs (2 مقالے)۔
  • screenshot margins میں ای میل addresses (1 مقالہ)۔
  • submission سے پہلے تمام 7 ٹھیک کیے گئے۔
  • submission کے بعد کوئی retraction درخواستیں یا ethics findings نہیں۔

Ethics board اب اس workflow کو Article 89 کے تحت ایک ماڈل "appropriate safeguard" کے طور پر cite کرتی ہے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.