المشكلة: البيانات الشخصية في منشورات البحث
عند نشر نتائج البحث، قد تحتوي على:
- لقطات شاشة من قواعد البيانات
- جداول بيانات المشاركين
- صور الجداول التي تحتوي على معرفات
- ملفات CSV مع بيانات المشاركين
الحل: إخفاء قبل النشر
import pandas as pd
from presidio_analyzer import AnalyzerEngine
analyzer = AnalyzerEngine()
def anonymize_research_data(csv_path):
df = pd.read_csv(csv_path)
for col in df.columns:
if any(pii in col.lower() for pii in ["name", "email", "phone", "ssn"]):
df[col] = df[col].apply(lambda x: f"[REDACTED-{type(x).__name__}]")
return df
الامتثال
- البحث الأخلاقي: موافقة المشاركين على استخدام البيانات
- GDPR: البيانات الشخصية في منشورات = معالجة