شمارش معکوس شروع شده است
بهروزشده برای ۲۰۲۶
مهلت قانون هوش مصنوعی اتحادیه اروپا واقعی است. قوانین ماده ۱۰ از ۲ آگوست ۲۰۲۶ اعمال میشوند. اگر تیم شما یک سیستم هوش مصنوعی پرخطر میسازد یا اجرا میکند، همین الان اقدام کنید. وقت کم است.
جریمهها از GDPR بالاتر میروند. حداکثر جریمه ۳۵ میلیون یورو یا ۷٪ از گردش مالی سالانه جهانی است. GDPR سقف ۲۰ میلیون یورو یا ۴٪ دارد. هیچ قانون هوش مصنوعی دیگری جریمههای بالاتری ندارد.
کدام سیستمهای هوش مصنوعی پرخطر هستند؟
قانون هوش مصنوعی سیستمها را بر اساس ریسک طبقهبندی میکند. سیستمهای پرخطر (پیوست III) شامل هوش مصنوعی استفادهشده در:
- آموزش — دسترسی به مدرسه یا نمرهدهی دانشآموزان
- اشتغال — غربالگری رزومه، نمرهدهی مصاحبه، نظارت کارگری
- خدمات کلیدی — امتیازدهی اعتباری، قیمتگذاری بیمه، اعزام اورژانس
- اجرای قانون — پیشبینی جرم، شناسایی بیومتریک
- بهداشت — نرمافزار دستگاه پزشکی، تریاژ بیمار
- زیرساخت — مدیریت انرژی، آب، یا حملونقل
- عدالت — ابزارهای تحقیقات حقوقی، ابزارهای مجازات
در هر یک از این موارد کار میکنید؟ ماده ۱۰ برای شما اعمال میشود.
ماده ۱۰: چهار قانون کلیدی
ماده ۱۰ قوانینی برای مجموعه دادههای استفادهشده توسط سیستمهای هوش مصنوعی پرخطر تعیین میکند. اینجا چهار مورد اصلی هستند.
۱. حاکمیت مکتوب
مجموعه دادهها باید از «شیوههای مناسب حاکمیت و مدیریت داده» پیروی کنند. به مراحل مکتوب برای جمعآوری، بررسیهای کیفیت، و بازبینی مداوم نیاز دارید.
۲. آزمون سوگیری
رکوردها باید برای «سوگیریهای احتمالی» که میتواند خروجیهای ناعادلانه ایجاد کند بررسی شوند. آزمون فعال الزامی است. اجتناب از سوگیری عمدی کافی نیست.
۳. دقت و پوشش
مجموعه دادهها باید «مرتبط، به اندازه کافی نماینده، و عاری از خطا» باشند. خزشهای وب که گروههای خاص را از دست میدهند ممکن است این آزمون را نگذرانند.
۴. انواع ویژه رکورد
ماده ۱۰(۵) مستقیمترین قانون است. وقتی یک سیستم پرخطر از رکوردهای طبقه خاص استفاده میکند — سلامت، نژاد، مذهب، سیاست، بیومتریک — فقط میتوانید آنها را پردازش کنید که «کاملاً ضروری» برای بررسیهای سوگیری باشد. همچنین باید «تدابیر مناسب» اعمال کنید. پاکسازی داده یکی از قویترین تدابیری است که میتوانید استفاده کنید.
نتیجه: بیشتر مجموعه دادههای مدل هوش مصنوعی رکوردهای شخصی دارند. ماده ۱۰ میگوید حداقل ممکن را با تدابیر فنی قوی استفاده کنید.
برای جزئیات، صفحه انطباق قانونی و مرور امنیتی ما را ببینید.
سطوح جریمه
قانون هوش مصنوعی اتحادیه اروپا سه سطح جریمه دارد. همه آنها برای همان نوع تخلف از GDPR بیشتر هستند:
| مقررات | حداکثر جریمه | سقف گردش مالی |
|---|---|---|
| GDPR | ۲۰ میلیون یورو | ۴٪ گردش مالی جهانی |
| قانون هوش مصنوعی اتحادیه اروپا (پرخطر) | ۱۵ میلیون یورو | ۳٪ گردش مالی جهانی |
| قانون هوش مصنوعی اتحادیه اروپا (ممنوع) | ۳۵ میلیون یورو | ۷٪ گردش مالی جهانی |
تخلفات مجموعه داده در سطح پرخطر (۱۵ میلیون یورو / ۳٪) قرار میگیرند. اگر یک ناظر بیابد که استفاده از رکوردهای شخصی بدون تدابیر حمایتی یک عمل ممنوع است، سطح بالاترین اعمال میشود.
مثالهای واقعی: گردش مالی ۵۰۰ میلیون یورو با ۳٪ = جریمه ۱۵ میلیون یورو. گردش مالی ۵ میلیارد یورو با ۳٪ = جریمه ۱۵۰ میلیون یورو. این اعداد واقعی هستند، نه تئوری.
چرا پاکسازی داده این مشکل را حل میکند
رکوردهای به درستی پاکسازیشده خارج از دامنه GDPR قرار میگیرند. این بیشتر بار ماده ۱۰ را حذف میکند.
قوانین سخت — مدیریت طبقه خاص، بررسیهای سوگیری، حقوق موضوعات داده — فقط وقتی یک مجموعه داده رکوردهای شخصی دارد اعمال میشوند. ابتدا آن رکوردها را حذف کنید. بار اغلب از بین میرود.
CNIL (سازمان داده فرانسه) این را در اوایل ۲۰۲۶ روشن کرد. راهنمای هوش مصنوعی آن میگوید: پاکسازی داده رکوردهای شخصی که برای عملکرد مدل ضروری نیستند اقدام فنی اولیه برای ماده ۱۰ است.
این یک دیدگاه حاشیهای نیست. این موضع اصلی ناظر ارشد هوش مصنوعی اتحادیه اروپا است.
پاکسازی داده در عمل به چه معناست
پاکسازی مجموعه دادههای مدل هوش مصنوعی با پاکسازی رکوردهای تولید زنده فرق دارد. مجموعه دادههای مدل میتوانند شامل:
- اسناد با اطلاعات شخصی — قراردادها، ایمیلها، گزارشها، تیکتهای پشتیبانی
- رکوردهای ساختاریافته — جداول مشتری استفادهشده برای ساخت مدلهای پیشبینی
- محتوای برچسبخورده — تصاویر یا متن با یادداشتهایی که داده شخصی دارند
- رکوردهای مصنوعی — جایی که تولید ممکن است هنوز الگوهای شخصی را حفظ کند
باید اطلاعات شخصی را در همه این فرمتها شناسایی کنید. از دست دادن یک نوع کل مجموعه داده را افشا میکند. قراردادی با نامهای حذفشده اما آدرسهای کامل هنوز موجود، مدل را آموزش میدهد که مکان را به الگوهای جمعیتی مرتبط کند.
anonym.legal API پردازش دستهای برای مجموعه دادههای بزرگ هوش مصنوعی را مدیریت میکند. بیش از ۲۸۵ نوع موجودیت را در ۴۸ زبان شناسایی میکند. برای شرکتهای هوش مصنوعی اروپایی با مجموعه دادههای چندزبانه، پوشش فرازبانی حیاتی است. یک شکاف در یک زبان در کل سیستم خطر قانون هوش مصنوعی اتحادیه اروپا ایجاد میکند.
برای اطلاعات بیشتر در مورد تشخیص موجودیت، راهنمای سیستم توکن و مرجع انواع موجودیت را ببینید.
مراحل عملی: پاکسازی مجموعه داده شما
مرحله ۱: ابتدا حسابرسی کنید
قبل از پاکسازی هر چیز یک پاس تشخیص اجرا کنید. این به شما میگوید چه اطلاعات شخصی وجود دارد:
```bash curl -X POST https://anonym.legal/api/presidio/analyze \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "text": "'"$(cat document.txt)"'", "language": "en" }' ```
پاسخ هر موجودیت شناساییشده را با نوع، موقعیت، و امتیاز آن فهرست میکند. این را در همه فایلهای شما اجرا کنید تا کل محدوده را قبل از شروع ببینید.
مرحله ۲: پاکسازی دستهای
برای مجموعه دادههای بزرگ، از endpoint دستهای برای پردازش همزمان فایلهای زیاد استفاده کنید:
```python import requests import os from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]: response = requests.post( "https://anonym.legal/api/presidio/anonymize-batch", json={"items": documents, "language": "en"}, headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"} ) return response.json()["results"]
source_dir = Path("./dataset") docs = [ {"id": f.name, "text": f.read_text()} for f in source_dir.glob("*.txt") ]
batch_size = 50 for i in range(0, len(docs), batch_size): results = scrub_batch(docs[i:i+batch_size]) for result in results: out = source_dir / "clean" / result["id"] out.write_text(result["text"]) print(f"Done: {result['id']} — {len(result['items'])} entities removed") ```
مرحله ۳: رکوردها را نگه دارید
ماده ۱۰ نیازمند رکوردهای مکتوب از آنچه انجام دادهاید است. برای هر مجموعه داده، نگه دارید:
- مدل تشخیص و نسخه استفادهشده
- کدام نوع موجودیتها پیدا شدند و هر کدام چگونه جایگزین شدند
- تعداد موجودیتهای حذفشده در هر مجموعه داده
- تاریخ پاکسازی و نسخه مجموعه داده استفادهشده
این نیاز «شیوههای حاکمیت و مدیریت داده» در ماده ۱۰(۲)(الف) را برآورده میکند.
سوالات رایج
آیا پاکسازی کیفیت مدل را خراب میکند؟
در بیشتر موارد، نه. مدل الگوها را از ساختار متن یاد میگیرد، نه جزئیات شخصی. نامها، شمارههای تلفن، و آدرسها میتوانند با placeholderهایی مانند `[NAME]` یا `[PHONE]` جایگزین شوند و مدل همان الگوها را یاد میگیرد. بسیاری از تیمهای تحقیقاتی دریافتهاند که مجموعه دادههای پاکسازیشده مدلهایی با کیفیت یکسان تولید میکنند. کلید استفاده از placeholderهای یکپارچه است تا مدل یک الگوی روشن ببیند.
اگر مجموعه داده من خیلی بزرگ باشد چطور؟
از batch API استفاده کنید. حجمهای بزرگ را به صورت موازی مدیریت میکند. صفحه قیمتگذاری برنامههایی برای موارد استفاده با حجم بالا نشان میدهد. بسیاری از تیمها میلیونها رکورد در ماه پردازش میکنند.
در مورد مجموعه دادههای غیرانگلیسی چطور؟
API از ۴۸ زبان پشتیبانی میکند. هر زبان از یک مدل تشخیص آموزشدیده بر آن زبان استفاده میکند. این یعنی آلمانی، فرانسوی، اسپانیایی، ژاپنی، و بقیه همگی پوشش داده شدهاند. برای فهرست کامل زبان، FAQ را ببینید. مجموعه دادههای چندزبانه هم پشتیبانی میشوند — میتوانید زبان را در درخواست دستهای برای هر سند مشخص کنید.
قانون هوش مصنوعی Colorado: دو مهلت
قانون هوش مصنوعی Colorado از ۳۰ ژوئن ۲۰۲۶ اجرایی میشود — پنج هفته قبل از مهلت اتحادیه اروپا. قوانین مشابهی برای «سیستمهای هوش مصنوعی پرخطر» تحت قانون ایالتی تعیین میکند. تمرکز اصلی بر سوگیری و تبعیض است.
تیمهایی که در هر دو اتحادیه اروپا و Colorado هستند با دو مهلت همزمان روبرو هستند. پاکسازی مجموعه دادهها به رعایت هر دو قانون کمک میکند: ماده ۱۰ (اتحادیه اروپا) و قوانین ضدسوگیری Colorado. مراحل فنی یکسان هستند.
همین الان اقدام کنید
پنج ماه کافی است — اگر امروز شروع کنید. اگر تا ژوئن صبر کنید کافی نیست.
یک برنامه زمانی عملی:
- هفتههای ۱–۲: مجموعه دادههای خود را حسابرسی کنید — بفهمید چه رکوردهای شخصی وجود دارد
- هفتههای ۳–۶: pipeline پاکسازی خود را بسازید و آزمایش کنید
- هفتههای ۷–۱۰: رکوردهای حاکمیتی خود را بنویسید؛ بازبینی حقوقی بگیرید
- هفتههای ۱۱–۱۶: اعتبارسنجی کنید — تأیید کنید مجموعه دادههای پاکسازیشده قوانین کیفیت ماده ۱۰ را رعایت میکنند
- ۲ آگوست: تاریخ اجرا — شیوههای منطبق در جای خود
anonym.legal API بدون تغییرات بزرگ به pipeline فعلی شما وصل میشود. برنامههای حجمی را در قیمتگذاری بررسی کنید. FAQ سوالات رایج ماده ۱۰ را پوشش میدهد.
از چکلیست انطباق GDPR برای رکوردهایی که بین GDPR و ماده ۱۰ همپوشانی دارند استفاده کنید.
قانون هوش مصنوعی اتحادیه اروپا آماده اجرا است. آیا سازمان شما تا ۲ آگوست آماده خواهد بود؟
محدودیتها و سوالات باز
پاکسازی داده برای قوانین قانون هوش مصنوعی هنوز در حال تکامل است. اینجا شکافهای کلیدی هستند.
آستانهها تعریف نشدهاند. قانون هوش مصنوعی اتحادیه اروپا نمیگوید چه سطحی از پاکسازی «کافی» است. تا زمانی که دفتر هوش مصنوعی اروپا راهنمایی صادر کند، با خطر قانونی روبرو هستید. ممکن است ندانید روش شما ناظران را راضی میکند یا نه.
خطر شناسایی مجدد باقی میماند. تحقیقات نشان میدهد مدلهای زبانی بزرگ میتوانند محتوا را از مجموعه دادههای خود حفظ و بازپخش کنند. رکوردهایی که قبل از توسعه مدل استانداردهای پاکسازی را گذراندند هنوز ممکن است قابل استخراج باشند. پاکسازی قبل از توسعه این مشکل را به طور کامل حل نمیکند.
رکوردهای مصنوعی محدودیت دارند. تولید مصنوعی الگوهای آماری را حفظ میکند اما میتواند سوگیریهای ظریف اضافه کند یا موارد نادر لبهای را از دست بدهد. مدلهایی که فقط بر محتوای مصنوعی ساخته شدهاند ممکن است روی ورودیهای واقعی عملکرد ضعیفی داشته باشند.
ماده ۱۰ هنوز در حال تفسیر است. عبارت «اقدامات فنی مناسب» نیاز به تفسیر دارد. کار اولیه DPA در سراسر کشورهای عضو اتحادیه اروپا هنوز به استانداردهای روشن نرسیده است. در طول ۲۰۲۶ راهنمای EDPB و تصمیمات کشورهای عضو را دنبال کنید.
منابع
- قانون هوش مصنوعی اتحادیه اروپا، Regulation (EU) 2024/1689، مواد ۹–۱۷ (تعهدات هوش مصنوعی پرخطر)، OJ L 2024/1689
- قانون هوش مصنوعی اتحادیه اروپا، ماده ۱۰ — داده و حاکمیت داده
- راهنمای مجموعه داده هوش مصنوعی CNIL، ژانویه ۲۰۲۶
- قانون هوش مصنوعی Colorado، SB 205، اجرایی از ۳۰ ژوئن ۲۰۲۶
- جدول زمانی قانون هوش مصنوعی اتحادیه اروپا: شیوههای ممنوع ۲ فوریه ۲۰۲۵؛ سیستمهای پرخطر ۲ آگوست ۲۰۲۶