بازگشت به وبلاگGDPR و انطباق

قانون هوش مصنوعی اتحادیه اروپا آگوست ۲۰۲۶: ناشناس‌سازی داده‌های آموزشی برای رعایت ماده ۱۰

اجرای کامل قانون هوش مصنوعی اتحادیه اروپا از ۲ آگوست ۲۰۲۶ آغاز می‌شود. جریمه‌ها تا ۳۵ میلیون یورو یا ۷٪ از گردش مالی جهانی. ماده ۱۰ ناشناس‌سازی داده‌های آموزشی را الزامی می‌کند.

March 16, 20269 دقیقه مطالعه
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

شمارش معکوس شروع شده است

به‌روزشده برای ۲۰۲۶

مهلت قانون هوش مصنوعی اتحادیه اروپا واقعی است. قوانین ماده ۱۰ از ۲ آگوست ۲۰۲۶ اعمال می‌شوند. اگر تیم شما یک سیستم هوش مصنوعی پرخطر می‌سازد یا اجرا می‌کند، همین الان اقدام کنید. وقت کم است.

جریمه‌ها از GDPR بالاتر می‌روند. حداکثر جریمه ۳۵ میلیون یورو یا ۷٪ از گردش مالی سالانه جهانی است. GDPR سقف ۲۰ میلیون یورو یا ۴٪ دارد. هیچ قانون هوش مصنوعی دیگری جریمه‌های بالاتری ندارد.

کدام سیستم‌های هوش مصنوعی پرخطر هستند؟

قانون هوش مصنوعی سیستم‌ها را بر اساس ریسک طبقه‌بندی می‌کند. سیستم‌های پرخطر (پیوست III) شامل هوش مصنوعی استفاده‌شده در:

  • آموزش — دسترسی به مدرسه یا نمره‌دهی دانش‌آموزان
  • اشتغال — غربالگری رزومه، نمره‌دهی مصاحبه، نظارت کارگری
  • خدمات کلیدی — امتیازدهی اعتباری، قیمت‌گذاری بیمه، اعزام اورژانس
  • اجرای قانون — پیش‌بینی جرم، شناسایی بیومتریک
  • بهداشت — نرم‌افزار دستگاه پزشکی، تریاژ بیمار
  • زیرساخت — مدیریت انرژی، آب، یا حمل‌ونقل
  • عدالت — ابزارهای تحقیقات حقوقی، ابزارهای مجازات

در هر یک از این موارد کار می‌کنید؟ ماده ۱۰ برای شما اعمال می‌شود.

ماده ۱۰: چهار قانون کلیدی

ماده ۱۰ قوانینی برای مجموعه داده‌های استفاده‌شده توسط سیستم‌های هوش مصنوعی پرخطر تعیین می‌کند. اینجا چهار مورد اصلی هستند.

۱. حاکمیت مکتوب

مجموعه داده‌ها باید از «شیوه‌های مناسب حاکمیت و مدیریت داده» پیروی کنند. به مراحل مکتوب برای جمع‌آوری، بررسی‌های کیفیت، و بازبینی مداوم نیاز دارید.

۲. آزمون سوگیری

رکوردها باید برای «سوگیری‌های احتمالی» که می‌تواند خروجی‌های ناعادلانه ایجاد کند بررسی شوند. آزمون فعال الزامی است. اجتناب از سوگیری عمدی کافی نیست.

۳. دقت و پوشش

مجموعه داده‌ها باید «مرتبط، به اندازه کافی نماینده، و عاری از خطا» باشند. خزش‌های وب که گروه‌های خاص را از دست می‌دهند ممکن است این آزمون را نگذرانند.

۴. انواع ویژه رکورد

ماده ۱۰(۵) مستقیم‌ترین قانون است. وقتی یک سیستم پرخطر از رکوردهای طبقه خاص استفاده می‌کند — سلامت، نژاد، مذهب، سیاست، بیومتریک — فقط می‌توانید آن‌ها را پردازش کنید که «کاملاً ضروری» برای بررسی‌های سوگیری باشد. همچنین باید «تدابیر مناسب» اعمال کنید. پاک‌سازی داده یکی از قوی‌ترین تدابیری است که می‌توانید استفاده کنید.

نتیجه: بیشتر مجموعه داده‌های مدل هوش مصنوعی رکوردهای شخصی دارند. ماده ۱۰ می‌گوید حداقل ممکن را با تدابیر فنی قوی استفاده کنید.

برای جزئیات، صفحه انطباق قانونی و مرور امنیتی ما را ببینید.

سطوح جریمه

قانون هوش مصنوعی اتحادیه اروپا سه سطح جریمه دارد. همه آن‌ها برای همان نوع تخلف از GDPR بیشتر هستند:

مقرراتحداکثر جریمهسقف گردش مالی
GDPR۲۰ میلیون یورو۴٪ گردش مالی جهانی
قانون هوش مصنوعی اتحادیه اروپا (پرخطر)۱۵ میلیون یورو۳٪ گردش مالی جهانی
قانون هوش مصنوعی اتحادیه اروپا (ممنوع)۳۵ میلیون یورو۷٪ گردش مالی جهانی

تخلفات مجموعه داده در سطح پرخطر (۱۵ میلیون یورو / ۳٪) قرار می‌گیرند. اگر یک ناظر بیابد که استفاده از رکوردهای شخصی بدون تدابیر حمایتی یک عمل ممنوع است، سطح بالاترین اعمال می‌شود.

مثال‌های واقعی: گردش مالی ۵۰۰ میلیون یورو با ۳٪ = جریمه ۱۵ میلیون یورو. گردش مالی ۵ میلیارد یورو با ۳٪ = جریمه ۱۵۰ میلیون یورو. این اعداد واقعی هستند، نه تئوری.

چرا پاک‌سازی داده این مشکل را حل می‌کند

رکوردهای به درستی پاک‌سازی‌شده خارج از دامنه GDPR قرار می‌گیرند. این بیشتر بار ماده ۱۰ را حذف می‌کند.

قوانین سخت — مدیریت طبقه خاص، بررسی‌های سوگیری، حقوق موضوعات داده — فقط وقتی یک مجموعه داده رکوردهای شخصی دارد اعمال می‌شوند. ابتدا آن رکوردها را حذف کنید. بار اغلب از بین می‌رود.

CNIL (سازمان داده فرانسه) این را در اوایل ۲۰۲۶ روشن کرد. راهنمای هوش مصنوعی آن می‌گوید: پاک‌سازی داده رکوردهای شخصی که برای عملکرد مدل ضروری نیستند اقدام فنی اولیه برای ماده ۱۰ است.

این یک دیدگاه حاشیه‌ای نیست. این موضع اصلی ناظر ارشد هوش مصنوعی اتحادیه اروپا است.

پاک‌سازی داده در عمل به چه معناست

پاک‌سازی مجموعه داده‌های مدل هوش مصنوعی با پاک‌سازی رکوردهای تولید زنده فرق دارد. مجموعه داده‌های مدل می‌توانند شامل:

  • اسناد با اطلاعات شخصی — قراردادها، ایمیل‌ها، گزارش‌ها، تیکت‌های پشتیبانی
  • رکوردهای ساختاریافته — جداول مشتری استفاده‌شده برای ساخت مدل‌های پیش‌بینی
  • محتوای برچسب‌خورده — تصاویر یا متن با یادداشت‌هایی که داده شخصی دارند
  • رکوردهای مصنوعی — جایی که تولید ممکن است هنوز الگوهای شخصی را حفظ کند

باید اطلاعات شخصی را در همه این فرمت‌ها شناسایی کنید. از دست دادن یک نوع کل مجموعه داده را افشا می‌کند. قراردادی با نام‌های حذف‌شده اما آدرس‌های کامل هنوز موجود، مدل را آموزش می‌دهد که مکان را به الگوهای جمعیتی مرتبط کند.

anonym.legal API پردازش دسته‌ای برای مجموعه داده‌های بزرگ هوش مصنوعی را مدیریت می‌کند. بیش از ۲۸۵ نوع موجودیت را در ۴۸ زبان شناسایی می‌کند. برای شرکت‌های هوش مصنوعی اروپایی با مجموعه داده‌های چندزبانه، پوشش فرازبانی حیاتی است. یک شکاف در یک زبان در کل سیستم خطر قانون هوش مصنوعی اتحادیه اروپا ایجاد می‌کند.

برای اطلاعات بیشتر در مورد تشخیص موجودیت، راهنمای سیستم توکن و مرجع انواع موجودیت را ببینید.

مراحل عملی: پاک‌سازی مجموعه داده شما

مرحله ۱: ابتدا حسابرسی کنید

قبل از پاک‌سازی هر چیز یک پاس تشخیص اجرا کنید. این به شما می‌گوید چه اطلاعات شخصی وجود دارد:

```bash curl -X POST https://anonym.legal/api/presidio/analyze \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "text": "'"$(cat document.txt)"'", "language": "en" }' ```

پاسخ هر موجودیت شناسایی‌شده را با نوع، موقعیت، و امتیاز آن فهرست می‌کند. این را در همه فایل‌های شما اجرا کنید تا کل محدوده را قبل از شروع ببینید.

مرحله ۲: پاک‌سازی دسته‌ای

برای مجموعه داده‌های بزرگ، از endpoint دسته‌ای برای پردازش همزمان فایل‌های زیاد استفاده کنید:

```python import requests import os from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]: response = requests.post( "https://anonym.legal/api/presidio/anonymize-batch", json={"items": documents, "language": "en"}, headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"} ) return response.json()["results"]

source_dir = Path("./dataset") docs = [ {"id": f.name, "text": f.read_text()} for f in source_dir.glob("*.txt") ]

batch_size = 50 for i in range(0, len(docs), batch_size): results = scrub_batch(docs[i:i+batch_size]) for result in results: out = source_dir / "clean" / result["id"] out.write_text(result["text"]) print(f"Done: {result['id']} — {len(result['items'])} entities removed") ```

مرحله ۳: رکوردها را نگه دارید

ماده ۱۰ نیازمند رکوردهای مکتوب از آنچه انجام داده‌اید است. برای هر مجموعه داده، نگه دارید:

  • مدل تشخیص و نسخه استفاده‌شده
  • کدام نوع موجودیت‌ها پیدا شدند و هر کدام چگونه جایگزین شدند
  • تعداد موجودیت‌های حذف‌شده در هر مجموعه داده
  • تاریخ پاک‌سازی و نسخه مجموعه داده استفاده‌شده

این نیاز «شیوه‌های حاکمیت و مدیریت داده» در ماده ۱۰(۲)(الف) را برآورده می‌کند.

سوالات رایج

آیا پاک‌سازی کیفیت مدل را خراب می‌کند؟

در بیشتر موارد، نه. مدل الگوها را از ساختار متن یاد می‌گیرد، نه جزئیات شخصی. نام‌ها، شماره‌های تلفن، و آدرس‌ها می‌توانند با placeholder‌هایی مانند `[NAME]` یا `[PHONE]` جایگزین شوند و مدل همان الگوها را یاد می‌گیرد. بسیاری از تیم‌های تحقیقاتی دریافته‌اند که مجموعه داده‌های پاک‌سازی‌شده مدل‌هایی با کیفیت یکسان تولید می‌کنند. کلید استفاده از placeholder‌های یکپارچه است تا مدل یک الگوی روشن ببیند.

اگر مجموعه داده من خیلی بزرگ باشد چطور؟

از batch API استفاده کنید. حجم‌های بزرگ را به صورت موازی مدیریت می‌کند. صفحه قیمت‌گذاری برنامه‌هایی برای موارد استفاده با حجم بالا نشان می‌دهد. بسیاری از تیم‌ها میلیون‌ها رکورد در ماه پردازش می‌کنند.

در مورد مجموعه داده‌های غیرانگلیسی چطور؟

API از ۴۸ زبان پشتیبانی می‌کند. هر زبان از یک مدل تشخیص آموزش‌دیده بر آن زبان استفاده می‌کند. این یعنی آلمانی، فرانسوی، اسپانیایی، ژاپنی، و بقیه همگی پوشش داده شده‌اند. برای فهرست کامل زبان، FAQ را ببینید. مجموعه داده‌های چندزبانه هم پشتیبانی می‌شوند — می‌توانید زبان را در درخواست دسته‌ای برای هر سند مشخص کنید.

قانون هوش مصنوعی Colorado: دو مهلت

قانون هوش مصنوعی Colorado از ۳۰ ژوئن ۲۰۲۶ اجرایی می‌شود — پنج هفته قبل از مهلت اتحادیه اروپا. قوانین مشابهی برای «سیستم‌های هوش مصنوعی پرخطر» تحت قانون ایالتی تعیین می‌کند. تمرکز اصلی بر سوگیری و تبعیض است.

تیم‌هایی که در هر دو اتحادیه اروپا و Colorado هستند با دو مهلت همزمان روبرو هستند. پاک‌سازی مجموعه داده‌ها به رعایت هر دو قانون کمک می‌کند: ماده ۱۰ (اتحادیه اروپا) و قوانین ضدسوگیری Colorado. مراحل فنی یکسان هستند.

همین الان اقدام کنید

پنج ماه کافی است — اگر امروز شروع کنید. اگر تا ژوئن صبر کنید کافی نیست.

یک برنامه زمانی عملی:

  1. هفته‌های ۱–۲: مجموعه داده‌های خود را حسابرسی کنید — بفهمید چه رکوردهای شخصی وجود دارد
  2. هفته‌های ۳–۶: pipeline پاک‌سازی خود را بسازید و آزمایش کنید
  3. هفته‌های ۷–۱۰: رکوردهای حاکمیتی خود را بنویسید؛ بازبینی حقوقی بگیرید
  4. هفته‌های ۱۱–۱۶: اعتبارسنجی کنید — تأیید کنید مجموعه داده‌های پاک‌سازی‌شده قوانین کیفیت ماده ۱۰ را رعایت می‌کنند
  5. ۲ آگوست: تاریخ اجرا — شیوه‌های منطبق در جای خود

anonym.legal API بدون تغییرات بزرگ به pipeline فعلی شما وصل می‌شود. برنامه‌های حجمی را در قیمت‌گذاری بررسی کنید. FAQ سوالات رایج ماده ۱۰ را پوشش می‌دهد.

از چک‌لیست انطباق GDPR برای رکوردهایی که بین GDPR و ماده ۱۰ همپوشانی دارند استفاده کنید.

قانون هوش مصنوعی اتحادیه اروپا آماده اجرا است. آیا سازمان شما تا ۲ آگوست آماده خواهد بود؟

شروع با چک‌لیست انطباق GDPR →

محدودیت‌ها و سوالات باز

پاک‌سازی داده برای قوانین قانون هوش مصنوعی هنوز در حال تکامل است. اینجا شکاف‌های کلیدی هستند.

آستانه‌ها تعریف نشده‌اند. قانون هوش مصنوعی اتحادیه اروپا نمی‌گوید چه سطحی از پاک‌سازی «کافی» است. تا زمانی که دفتر هوش مصنوعی اروپا راهنمایی صادر کند، با خطر قانونی روبرو هستید. ممکن است ندانید روش شما ناظران را راضی می‌کند یا نه.

خطر شناسایی مجدد باقی می‌ماند. تحقیقات نشان می‌دهد مدل‌های زبانی بزرگ می‌توانند محتوا را از مجموعه داده‌های خود حفظ و بازپخش کنند. رکوردهایی که قبل از توسعه مدل استانداردهای پاک‌سازی را گذراندند هنوز ممکن است قابل استخراج باشند. پاک‌سازی قبل از توسعه این مشکل را به طور کامل حل نمی‌کند.

رکوردهای مصنوعی محدودیت دارند. تولید مصنوعی الگوهای آماری را حفظ می‌کند اما می‌تواند سوگیری‌های ظریف اضافه کند یا موارد نادر لبه‌ای را از دست بدهد. مدل‌هایی که فقط بر محتوای مصنوعی ساخته شده‌اند ممکن است روی ورودی‌های واقعی عملکرد ضعیفی داشته باشند.

ماده ۱۰ هنوز در حال تفسیر است. عبارت «اقدامات فنی مناسب» نیاز به تفسیر دارد. کار اولیه DPA در سراسر کشورهای عضو اتحادیه اروپا هنوز به استانداردهای روشن نرسیده است. در طول ۲۰۲۶ راهنمای EDPB و تصمیمات کشورهای عضو را دنبال کنید.

منابع

  • قانون هوش مصنوعی اتحادیه اروپا، Regulation (EU) 2024/1689، مواد ۹–۱۷ (تعهدات هوش مصنوعی پرخطر)، OJ L 2024/1689
  • قانون هوش مصنوعی اتحادیه اروپا، ماده ۱۰ — داده و حاکمیت داده
  • راهنمای مجموعه داده هوش مصنوعی CNIL، ژانویه ۲۰۲۶
  • قانون هوش مصنوعی Colorado، SB 205، اجرایی از ۳۰ ژوئن ۲۰۲۶
  • جدول زمانی قانون هوش مصنوعی اتحادیه اروپا: شیوه‌های ممنوع ۲ فوریه ۲۰۲۵؛ سیستم‌های پرخطر ۲ آگوست ۲۰۲۶

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.