Cơ quan Bảo vệ Dữ liệu Cá nhân Italy (Garante per la protezione dei dati personali - Garante) là cơ quan quản lý quyền riêng tư AI tích cực nhất EU. Vào tháng 3 năm 2023, Garante trở thành cơ quan bảo vệ dữ liệu đầu tiên trên toàn cầu tạm thời cấm ChatGPT tại Italy — buộc OpenAI phải triển khai xác minh tuổi rõ ràng và các biện pháp minh bạch trước khi dịch vụ được khôi phục. Vào tháng 12 năm 2024, Garante phạt OpenAI €15 triệu vì xử lý dữ liệu người dùng Italy trái phép.
Đối với các tổ chức sử dụng công cụ AI tại Italy — hoặc triển khai các hệ thống AI có thể xử lý dữ liệu cá nhân Italy — mô hình thực thi của Garante đặt ra các kỳ vọng kỹ thuật đòi hỏi nhất trong EU.
Vụ OpenAI/ChatGPT: Những Gì Garante Phát Hiện
Khoản phạt €15 triệu của Garante đối với OpenAI vào tháng 12 năm 2024 dựa trên nhiều vi phạm:
Lỗi xác minh tuổi: ChatGPT có thể truy cập được bởi trẻ vị thành niên Italy mà không có xác minh tuổi đầy đủ. Garante phát hiện OpenAI không thực hiện các biện pháp hợp lý để ngăn chặn sử dụng dưới 13 tuổi.
Xử lý dữ liệu đào tạo trái phép: Garante phát hiện việc OpenAI sử dụng dữ liệu người dùng Italy để đào tạo ChatGPT 3.5/4 thiếu cơ sở pháp lý đầy đủ. Yêu cầu "lợi ích hợp pháp" bị bác bỏ — Garante phát hiện việc sử dụng dữ liệu cá nhân để đào tạo các mô hình AI thương mại yêu cầu đồng ý hoặc cơ sở pháp lý rõ ràng hơn những gì các nhà cung cấp đào tạo LLM thường viện dẫn.
Thiếu minh bạch: OpenAI không thông báo đầy đủ cho người dùng Italy về cách dữ liệu của họ được sử dụng để đào tạo, hoặc cung cấp cơ chế từ chối có thể truy cập.
Hàm ý thực tiễn: Bất kỳ hệ thống AI nào xử lý dữ liệu cá nhân Italy — dù đào tạo, tinh chỉnh hay suy luận trên đầu vào của người dùng Italy — phải có cơ sở pháp lý GDPR được ghi chép theo tiêu chuẩn Garante vượt ra ngoài các yêu cầu "lợi ích hợp pháp" đơn thuần. Đồng ý hoặc thực hiện hợp đồng cụ thể thường được yêu cầu.
Mã Định Danh Quốc Gia Italy
Codice fiscale: Mã số thuế chữ và số 16 ký tự của Italy — một trong các mã định danh quốc gia chứa nhiều thông tin nhất trong EU. Cấu trúc:
- Ký tự 1-3: Phụ âm từ họ (quy tắc trích xuất cụ thể)
- Ký tự 4-6: Phụ âm và nguyên âm từ tên (quy tắc trích xuất cụ thể)
- Ký tự 7-8: Hai chữ số cuối của năm sinh
- Ký tự 9: Chữ cái đại diện cho tháng sinh (A=Tháng 1, B=Tháng 2, C=Tháng 3, D=Tháng 4, E=Tháng 5, H=Tháng 6, L=Tháng 7, M=Tháng 8, P=Tháng 9, R=Tháng 10, S=Tháng 11, T=Tháng 12)
- Ký tự 10-11: Ngày sinh (nam: số ngày; nữ: ngày + 40)
- Ký tự 12-15: Mã Belfiore (4 ký tự) của đô thị sinh hoặc quốc gia
- Ký tự 16: Ký tự kiểm tra (chữ cái, được tính bằng thuật toán cụ thể)
Codice fiscale mã hóa âm thanh đầu họ, âm thanh đầu tên, ngày sinh, giới tính (thông qua mã hóa ngày sinh) và nơi sinh. Có thể nói đây là mã định danh quốc gia EU chứa nhiều thông tin nhận dạng cá nhân nhất theo nội dung thông tin.
Độ chính xác phát hiện: Các công cụ NLP chung chỉ phát hiện codice fiscale với độ chính xác 67% (phân tích kỹ thuật Garante 2024). Các lỗi: các công cụ khớp mẫu chữ và số 16 ký tự mà không triển khai thuật toán ký tự kiểm tra không thể phân biệt codici fiscali hợp lệ với kết quả dương tính giả; các công cụ không triển khai quy tắc trích xuất họ/tên không thể xác thực các số hiện có.
Partita IVA: Số VAT kinh doanh 11 chữ số của Italy, với chữ số kiểm tra được tính bằng thuật toán tổng có trọng số modulus-10. Chữ số cuối là chữ số kiểm tra. Partita IVA xuất hiện trong tất cả tài liệu thương mại Italy — hóa đơn, hợp đồng và thư từ kinh doanh.
Tessera sanitaria: Thẻ y tế của Italy — kết hợp codice fiscale với dữ liệu đặc thù y tế bổ sung. Định dạng bao gồm codice fiscale như một thành phần.
Yêu Cầu Công Cụ AI Của Garante
Hướng dẫn của Garante về "các biện pháp kỹ thuật và tổ chức" cho các hệ thống AI xử lý dữ liệu cá nhân Italy:
Trước khi xử lý AI: PII phải được xác định và xóa hoặc giả danh trước khi nhập vào hệ thống AI. Bối cảnh Tiện ích mở rộng Chrome/tích hợp AI của Garante: bất kỳ công cụ AI nào nhận dữ liệu cá nhân Italy (tên, codici fiscali, dữ liệu sức khỏe) trong các prompt phải có các mã định danh đó được xóa trước khi truyền.
Cho đào tạo AI: Cần có cơ sở pháp lý được ghi chép rõ ràng. Đồng ý là cơ sở ưu tiên của Garante để đào tạo trên nội dung do người dùng Italy tạo ra. "Lợi ích hợp pháp" yêu cầu bài kiểm tra cân bằng được ghi chép chứng minh rằng mục đích đào tạo không ghi đè lợi ích bảo vệ dữ liệu của người dùng Italy.
Cho đầu ra AI: Các hệ thống tạo ra đầu ra về các cá nhân Italy phải triển khai các biện pháp bảo vệ chống lại ảo giác dữ liệu cá nhân (tạo ra thông tin sai được gán cho các cá nhân thực) — Garante đã gắn cờ điều này là rủi ro cụ thể yêu cầu giảm thiểu kỹ thuật.
63% doanh nghiệp Italy thiếu chính sách quản trị dữ liệu AI tuân thủ GDPR (Garante 2024). Đối với các tổ chức triển khai công cụ AI tại Italy: phát hiện codice fiscale và partita IVA với xác thực ký tự kiểm tra đầy đủ, NER tiếng Italy (spaCy it_core_news) và cơ sở pháp lý GDPR được ghi chép cho bất kỳ đào tạo AI nào trên dữ liệu cá nhân Italy là các yêu cầu cơ bản để tuân thủ Garante.
Nguồn tham khảo: