شمارش معکوس شروع شده است

به‌روزشده برای ۲۰۲۶

مهلت قانون هوش مصنوعی اتحادیه اروپا واقعی است. قوانین ماده ۱۰ از ۲ آگوست ۲۰۲۶ اعمال می‌شوند. اگر تیم شما یک سیستم هوش مصنوعی پرخطر می‌سازد یا اجرا می‌کند، همین الان اقدام کنید. وقت کم است.

جریمه‌ها از GDPR بالاتر می‌روند. حداکثر جریمه ۳۵ میلیون یورو یا ۷٪ از گردش مالی سالانه جهانی است. GDPR سقف ۲۰ میلیون یورو یا ۴٪ دارد. هیچ قانون هوش مصنوعی دیگری جریمه‌های بالاتری ندارد.

کدام سیستم‌های هوش مصنوعی پرخطر هستند؟

قانون هوش مصنوعی سیستم‌ها را بر اساس ریسک طبقه‌بندی می‌کند. سیستم‌های پرخطر (پیوست III) شامل هوش مصنوعی استفاده‌شده در:

آموزش — دسترسی به مدرسه یا نمره‌دهی دانش‌آموزان
اشتغال — غربالگری رزومه، نمره‌دهی مصاحبه، نظارت کارگری
خدمات کلیدی — امتیازدهی اعتباری، قیمت‌گذاری بیمه، اعزام اورژانس
اجرای قانون — پیش‌بینی جرم، شناسایی بیومتریک
بهداشت — نرم‌افزار دستگاه پزشکی، تریاژ بیمار
زیرساخت — مدیریت انرژی، آب، یا حمل‌ونقل
عدالت — ابزارهای تحقیقات حقوقی، ابزارهای مجازات

در هر یک از این موارد کار می‌کنید؟ ماده ۱۰ برای شما اعمال می‌شود.

ماده ۱۰: چهار قانون کلیدی

ماده ۱۰ قوانینی برای مجموعه داده‌های استفاده‌شده توسط سیستم‌های هوش مصنوعی پرخطر تعیین می‌کند. اینجا چهار مورد اصلی هستند.

۱. حاکمیت مکتوب

مجموعه داده‌ها باید از «شیوه‌های مناسب حاکمیت و مدیریت داده» پیروی کنند. به مراحل مکتوب برای جمع‌آوری، بررسی‌های کیفیت، و بازبینی مداوم نیاز دارید.

۲. آزمون سوگیری

رکوردها باید برای «سوگیری‌های احتمالی» که می‌تواند خروجی‌های ناعادلانه ایجاد کند بررسی شوند. آزمون فعال الزامی است. اجتناب از سوگیری عمدی کافی نیست.

۳. دقت و پوشش

مجموعه داده‌ها باید «مرتبط، به اندازه کافی نماینده، و عاری از خطا» باشند. خزش‌های وب که گروه‌های خاص را از دست می‌دهند ممکن است این آزمون را نگذرانند.

۴. انواع ویژه رکورد

ماده ۱۰(۵) مستقیم‌ترین قانون است. وقتی یک سیستم پرخطر از رکوردهای طبقه خاص استفاده می‌کند — سلامت، نژاد، مذهب، سیاست، بیومتریک — فقط می‌توانید آن‌ها را پردازش کنید که «کاملاً ضروری» برای بررسی‌های سوگیری باشد. همچنین باید «تدابیر مناسب» اعمال کنید. پاک‌سازی داده یکی از قوی‌ترین تدابیری است که می‌توانید استفاده کنید.

نتیجه: بیشتر مجموعه داده‌های مدل هوش مصنوعی رکوردهای شخصی دارند. ماده ۱۰ می‌گوید حداقل ممکن را با تدابیر فنی قوی استفاده کنید.

برای جزئیات، صفحه انطباق قانونی و مرور امنیتی ما را ببینید.

سطوح جریمه

قانون هوش مصنوعی اتحادیه اروپا سه سطح جریمه دارد. همه آن‌ها برای همان نوع تخلف از GDPR بیشتر هستند:

مقررات	حداکثر جریمه	سقف گردش مالی
GDPR	۲۰ میلیون یورو	۴٪ گردش مالی جهانی
قانون هوش مصنوعی اتحادیه اروپا (پرخطر)	۱۵ میلیون یورو	۳٪ گردش مالی جهانی
قانون هوش مصنوعی اتحادیه اروپا (ممنوع)	۳۵ میلیون یورو	۷٪ گردش مالی جهانی

تخلفات مجموعه داده در سطح پرخطر (۱۵ میلیون یورو / ۳٪) قرار می‌گیرند. اگر یک ناظر بیابد که استفاده از رکوردهای شخصی بدون تدابیر حمایتی یک عمل ممنوع است، سطح بالاترین اعمال می‌شود.

مثال‌های واقعی: گردش مالی ۵۰۰ میلیون یورو با ۳٪ = جریمه ۱۵ میلیون یورو. گردش مالی ۵ میلیارد یورو با ۳٪ = جریمه ۱۵۰ میلیون یورو. این اعداد واقعی هستند، نه تئوری.

چرا پاک‌سازی داده این مشکل را حل می‌کند

رکوردهای به درستی پاک‌سازی‌شده خارج از دامنه GDPR قرار می‌گیرند. این بیشتر بار ماده ۱۰ را حذف می‌کند.

قوانین سخت — مدیریت طبقه خاص، بررسی‌های سوگیری، حقوق موضوعات داده — فقط وقتی یک مجموعه داده رکوردهای شخصی دارد اعمال می‌شوند. ابتدا آن رکوردها را حذف کنید. بار اغلب از بین می‌رود.

CNIL (سازمان داده فرانسه) این را در اوایل ۲۰۲۶ روشن کرد. راهنمای هوش مصنوعی آن می‌گوید: پاک‌سازی داده رکوردهای شخصی که برای عملکرد مدل ضروری نیستند اقدام فنی اولیه برای ماده ۱۰ است.

این یک دیدگاه حاشیه‌ای نیست. این موضع اصلی ناظر ارشد هوش مصنوعی اتحادیه اروپا است.

پاک‌سازی داده در عمل به چه معناست

پاک‌سازی مجموعه داده‌های مدل هوش مصنوعی با پاک‌سازی رکوردهای تولید زنده فرق دارد. مجموعه داده‌های مدل می‌توانند شامل:

اسناد با اطلاعات شخصی — قراردادها، ایمیل‌ها، گزارش‌ها، تیکت‌های پشتیبانی
رکوردهای ساختاریافته — جداول مشتری استفاده‌شده برای ساخت مدل‌های پیش‌بینی
محتوای برچسب‌خورده — تصاویر یا متن با یادداشت‌هایی که داده شخصی دارند
رکوردهای مصنوعی — جایی که تولید ممکن است هنوز الگوهای شخصی را حفظ کند

باید اطلاعات شخصی را در همه این فرمت‌ها شناسایی کنید. از دست دادن یک نوع کل مجموعه داده را افشا می‌کند. قراردادی با نام‌های حذف‌شده اما آدرس‌های کامل هنوز موجود، مدل را آموزش می‌دهد که مکان را به الگوهای جمعیتی مرتبط کند.

anonym.legal API پردازش دسته‌ای برای مجموعه داده‌های بزرگ هوش مصنوعی را مدیریت می‌کند. بیش از ۲۸۵ نوع موجودیت را در ۴۸ زبان شناسایی می‌کند. برای شرکت‌های هوش مصنوعی اروپایی با مجموعه داده‌های چندزبانه، پوشش فرازبانی حیاتی است. یک شکاف در یک زبان در کل سیستم خطر قانون هوش مصنوعی اتحادیه اروپا ایجاد می‌کند.

برای اطلاعات بیشتر در مورد تشخیص موجودیت، راهنمای سیستم توکن و مرجع انواع موجودیت را ببینید.

مراحل عملی: پاک‌سازی مجموعه داده شما

مرحله ۱: ابتدا حسابرسی کنید

قبل از پاک‌سازی هر چیز یک پاس تشخیص اجرا کنید. این به شما می‌گوید چه اطلاعات شخصی وجود دارد:

```bash curl -X POST https://anonym.legal/api/presidio/analyze \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "text": "'"$(cat document.txt)"'", "language": "en" }' ```

پاسخ هر موجودیت شناسایی‌شده را با نوع، موقعیت، و امتیاز آن فهرست می‌کند. این را در همه فایل‌های شما اجرا کنید تا کل محدوده را قبل از شروع ببینید.

مرحله ۲: پاک‌سازی دسته‌ای

برای مجموعه داده‌های بزرگ، از endpoint دسته‌ای برای پردازش همزمان فایل‌های زیاد استفاده کنید:

```python import requests import os from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]: response = requests.post( "https://anonym.legal/api/presidio/anonymize-batch", json={"items": documents, "language": "en"}, headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"} ) return response.json()["results"]

source_dir = Path("./dataset") docs = [ {"id": f.name, "text": f.read_text()} for f in source_dir.glob("*.txt") ]

batch_size = 50 for i in range(0, len(docs), batch_size): results = scrub_batch(docs[i:i+batch_size]) for result in results: out = source_dir / "clean" / result["id"] out.write_text(result["text"]) print(f"Done: {result['id']} — {len(result['items'])} entities removed") ```

مرحله ۳: رکوردها را نگه دارید

ماده ۱۰ نیازمند رکوردهای مکتوب از آنچه انجام داده‌اید است. برای هر مجموعه داده، نگه دارید:

مدل تشخیص و نسخه استفاده‌شده
کدام نوع موجودیت‌ها پیدا شدند و هر کدام چگونه جایگزین شدند
تعداد موجودیت‌های حذف‌شده در هر مجموعه داده
تاریخ پاک‌سازی و نسخه مجموعه داده استفاده‌شده

این نیاز «شیوه‌های حاکمیت و مدیریت داده» در ماده ۱۰(۲)(الف) را برآورده می‌کند.

سوالات رایج

آیا پاک‌سازی کیفیت مدل را خراب می‌کند؟

در بیشتر موارد، نه. مدل الگوها را از ساختار متن یاد می‌گیرد، نه جزئیات شخصی. نام‌ها، شماره‌های تلفن، و آدرس‌ها می‌توانند با placeholder‌هایی مانند `[NAME]` یا `[PHONE]` جایگزین شوند و مدل همان الگوها را یاد می‌گیرد. بسیاری از تیم‌های تحقیقاتی دریافته‌اند که مجموعه داده‌های پاک‌سازی‌شده مدل‌هایی با کیفیت یکسان تولید می‌کنند. کلید استفاده از placeholder‌های یکپارچه است تا مدل یک الگوی روشن ببیند.

اگر مجموعه داده من خیلی بزرگ باشد چطور؟

از batch API استفاده کنید. حجم‌های بزرگ را به صورت موازی مدیریت می‌کند. صفحه قیمت‌گذاری برنامه‌هایی برای موارد استفاده با حجم بالا نشان می‌دهد. بسیاری از تیم‌ها میلیون‌ها رکورد در ماه پردازش می‌کنند.

در مورد مجموعه داده‌های غیرانگلیسی چطور؟

API از ۴۸ زبان پشتیبانی می‌کند. هر زبان از یک مدل تشخیص آموزش‌دیده بر آن زبان استفاده می‌کند. این یعنی آلمانی، فرانسوی، اسپانیایی، ژاپنی، و بقیه همگی پوشش داده شده‌اند. برای فهرست کامل زبان، FAQ را ببینید. مجموعه داده‌های چندزبانه هم پشتیبانی می‌شوند — می‌توانید زبان را در درخواست دسته‌ای برای هر سند مشخص کنید.

قانون هوش مصنوعی Colorado: دو مهلت

قانون هوش مصنوعی Colorado از ۳۰ ژوئن ۲۰۲۶ اجرایی می‌شود — پنج هفته قبل از مهلت اتحادیه اروپا. قوانین مشابهی برای «سیستم‌های هوش مصنوعی پرخطر» تحت قانون ایالتی تعیین می‌کند. تمرکز اصلی بر سوگیری و تبعیض است.

تیم‌هایی که در هر دو اتحادیه اروپا و Colorado هستند با دو مهلت همزمان روبرو هستند. پاک‌سازی مجموعه داده‌ها به رعایت هر دو قانون کمک می‌کند: ماده ۱۰ (اتحادیه اروپا) و قوانین ضدسوگیری Colorado. مراحل فنی یکسان هستند.

همین الان اقدام کنید

پنج ماه کافی است — اگر امروز شروع کنید. اگر تا ژوئن صبر کنید کافی نیست.

یک برنامه زمانی عملی:

هفته‌های ۱–۲: مجموعه داده‌های خود را حسابرسی کنید — بفهمید چه رکوردهای شخصی وجود دارد
هفته‌های ۳–۶: pipeline پاک‌سازی خود را بسازید و آزمایش کنید
هفته‌های ۷–۱۰: رکوردهای حاکمیتی خود را بنویسید؛ بازبینی حقوقی بگیرید
هفته‌های ۱۱–۱۶: اعتبارسنجی کنید — تأیید کنید مجموعه داده‌های پاک‌سازی‌شده قوانین کیفیت ماده ۱۰ را رعایت می‌کنند
۲ آگوست: تاریخ اجرا — شیوه‌های منطبق در جای خود

anonym.legal API بدون تغییرات بزرگ به pipeline فعلی شما وصل می‌شود. برنامه‌های حجمی را در قیمت‌گذاری بررسی کنید. FAQ سوالات رایج ماده ۱۰ را پوشش می‌دهد.

از چک‌لیست انطباق GDPR برای رکوردهایی که بین GDPR و ماده ۱۰ همپوشانی دارند استفاده کنید.

قانون هوش مصنوعی اتحادیه اروپا آماده اجرا است. آیا سازمان شما تا ۲ آگوست آماده خواهد بود؟

شروع با چک‌لیست انطباق GDPR →

محدودیت‌ها و سوالات باز

پاک‌سازی داده برای قوانین قانون هوش مصنوعی هنوز در حال تکامل است. اینجا شکاف‌های کلیدی هستند.

آستانه‌ها تعریف نشده‌اند. قانون هوش مصنوعی اتحادیه اروپا نمی‌گوید چه سطحی از پاک‌سازی «کافی» است. تا زمانی که دفتر هوش مصنوعی اروپا راهنمایی صادر کند، با خطر قانونی روبرو هستید. ممکن است ندانید روش شما ناظران را راضی می‌کند یا نه.

خطر شناسایی مجدد باقی می‌ماند. تحقیقات نشان می‌دهد مدل‌های زبانی بزرگ می‌توانند محتوا را از مجموعه داده‌های خود حفظ و بازپخش کنند. رکوردهایی که قبل از توسعه مدل استانداردهای پاک‌سازی را گذراندند هنوز ممکن است قابل استخراج باشند. پاک‌سازی قبل از توسعه این مشکل را به طور کامل حل نمی‌کند.

رکوردهای مصنوعی محدودیت دارند. تولید مصنوعی الگوهای آماری را حفظ می‌کند اما می‌تواند سوگیری‌های ظریف اضافه کند یا موارد نادر لبه‌ای را از دست بدهد. مدل‌هایی که فقط بر محتوای مصنوعی ساخته شده‌اند ممکن است روی ورودی‌های واقعی عملکرد ضعیفی داشته باشند.

ماده ۱۰ هنوز در حال تفسیر است. عبارت «اقدامات فنی مناسب» نیاز به تفسیر دارد. کار اولیه DPA در سراسر کشورهای عضو اتحادیه اروپا هنوز به استانداردهای روشن نرسیده است. در طول ۲۰۲۶ راهنمای EDPB و تصمیمات کشورهای عضو را دنبال کنید.

منابع

قانون هوش مصنوعی اتحادیه اروپا، Regulation (EU) 2024/1689، مواد ۹–۱۷ (تعهدات هوش مصنوعی پرخطر)، OJ L 2024/1689
قانون هوش مصنوعی اتحادیه اروپا، ماده ۱۰ — داده و حاکمیت داده
راهنمای مجموعه داده هوش مصنوعی CNIL، ژانویه ۲۰۲۶
قانون هوش مصنوعی Colorado، SB 205، اجرایی از ۳۰ ژوئن ۲۰۲۶
جدول زمانی قانون هوش مصنوعی اتحادیه اروپا: شیوه‌های ممنوع ۲ فوریه ۲۰۲۵؛ سیستم‌های پرخطر ۲ آگوست ۲۰۲۶

قانون هوش مصنوعی اتحادیه اروپا آگوست ۲۰۲۶: ناشناس‌سازی داده‌های آموزشی برای رعایت ماده ۱۰

شمارش معکوس شروع شده است

کدام سیستم‌های هوش مصنوعی پرخطر هستند؟

ماده ۱۰: چهار قانون کلیدی

سطوح جریمه

چرا پاک‌سازی داده این مشکل را حل می‌کند

پاک‌سازی داده در عمل به چه معناست

مراحل عملی: پاک‌سازی مجموعه داده شما

سوالات رایج

قانون هوش مصنوعی Colorado: دو مهلت

همین الان اقدام کنید

محدودیت‌ها و سوالات باز

منابع

مقالات مرتبط

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

آماده‌اید داده‌های خود را محافظت کنید؟

قانون هوش مصنوعی اتحادیه اروپا آگوست ۲۰۲۶: ناشناس‌سازی داده‌های آموزشی برای رعایت ماده ۱۰

شمارش معکوس شروع شده است

کدام سیستم‌های هوش مصنوعی پرخطر هستند؟

ماده ۱۰: چهار قانون کلیدی

سطوح جریمه

چرا پاک‌سازی داده این مشکل را حل می‌کند

پاک‌سازی داده در عمل به چه معناست

مراحل عملی: پاک‌سازی مجموعه داده شما

سوالات رایج

قانون هوش مصنوعی Colorado: دو مهلت

همین الان اقدام کنید

محدودیت‌ها و سوالات باز

منابع

مقالات مرتبط

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow