HDPA یونان: شناسایی AFM و AMKA
بهروزرسانی برای ۲۰۲۶
مرجع حفاظت از دادههای یونان (HDPA) در سال ۲۰۲۴ معادل ۸۹ تصمیم اجرایی صادر کرد. این رقم نسبت به ۳۴ تصمیم در سال ۲۰۲۲ معادل افزایش ۱۶۲٪ است. گردشگری ۳۸٪ از پروندههای HDPA را به خود اختصاص میدهد. عملیات دریایی نیز خطر بیشتری ایجاد میکند.
برای آشنایی با اجرای ملی DPA، به راهنمای انطباق GDPR مراجعه کنید.
AFM: شماره ثبت مالیاتی
ΑΦΜ یک شماره مالیاتی ۹ رقمی است. هر شهروند، ساکن و کسبوکاری یکی دارد.
Checksum: ارقام ۱ تا ۸ را در وزنهای ۲۵۶، ۱۲۸، ۶۴، ۳۲، ۱۶، ۸، ۴ و ۲ ضرب کنید. حاصلجمع را بگیرید. باقیمانده تقسیم بر ۱۱ را محاسبه کنید. اگر نتیجه ۱۰ شد، شماره معتبر نیست. در غیر این صورت، رقم کنترلی برابر نتیجه modulo ۱۰ است.
AFM روی فاکتورها، قراردادها و فرمهای دولتی ظاهر میشود. این شناسه اصلی برای افراد و کسبوکارها در کشور است.
شکاف شناسایی: ابزارهای NLP عمومی AFM را تنها با دقت ۵۲٪ پیدا میکنند (HDPA 2024). سه دلیل این مشکل را توضیح میدهند. اول: فرمت ۹ رقمی شبیه بسیاری از شمارههای مرجع و بخشهای تاریخ است. دوم: Checksum دو مرحلهای modulo در اکثر ابزارهای عمومی وجود ندارد. سوم: شماره اغلب بدون برچسب است — درون یک بلوک آدرس قرار دارد.
برای اطلاعات بیشتر درباره شناسههای ساختاریافته، به مرجع موجودیتها مراجعه کنید.
AMKA: شماره بیمه اجتماعی
ΑΜΚΑ یک شماره ۱۱ رقمی است. ارقام ۱ تا ۶ تاریخ تولد را به فرمت DDMMYY رمزگذاری میکنند. رقم ۷ جنسیت را رمزگذاری میکند: فرد برای مرد، زوج برای زن. ارقام ۸ تا ۱۱ شماره سریال و رقم کنترلی را تشکیل میدهند.
این طراحی شبیه personnummer سوئد است. هر دو نگرانی یکسانی برای GDPR ایجاد میکنند. این شماره جنس بیولوژیکی را به عنوان یک نقطه داده آشکار میکند.
AMKA در پروندههای بهداشتی، پروندههای تأمین اجتماعی و حقوق و دستمزد ظاهر میشود. هر شهروند و ساکنی یکی دارد. این شماره به عنوان شماره اصلی برای مراقبتهای بهداشتی و مزایا عمل میکند. برای نحوه اعمال GDPR بر این نوع داده، به صفحه امنیت و انطباق مراجعه کنید.
شکاف پشتیبانی از خط نوشتار
متن یونانی از خط متفاوتی نسبت به زبانهای لاتین استفاده میکند. این چالش اصلی ابزارهای PII است.
محدودههای Unicode: کاراکترهای یونانی در U+0370–U+03FF و U+1F00–U+1FFF قرار دارند. ابزارهایی که فقط برای ASCII یا خطوط لاتین ساخته شدهاند این کاراکترها را پردازش نمیکنند.
مدل NER: مدل el_core_news در spaCy از NER یونانی پشتیبانی میکند. اما نیاز به تنظیم صریح دارد. اکثر pipelineهای پیشفرض فقط از انگلیسی استفاده میکنند. آنها هیچ خروجی برای اسناد به خط یونانی تولید نمیکنند.
فایلهای چند خطی: اسناد این کشور اغلب خط یونانی و لاتین را با هم ترکیب میکنند. نام تجاری و اصطلاحات فنی به لاتین هستند. متن اصلی به یونانی است. یک pipeline باید هر دو را پردازش کند.
صورتهای دستوری: نامها در جملات یونانی تغییر شکل میدهند. Γεώργιος Παπαδόπουλος در حالت فاعلی به Γεωργίου Παπαδόπουλου در حالت اضافی تبدیل میشود. یک ابزار برای شناسایی هر دو نیاز به تحلیل صرفی دارد.
برای سؤالات درباره شناسایی PII چندزبانه، به FAQ مراجعه کنید.
خطرات انطباق در گردشگری
گردشگری ۳۸٪ از پروندههای HDPA را به خود اختصاص میدهد. مقیاس و فصلی بودن اصلیترین خطرات را ایجاد میکنند.
نگهداری PMS: سیستمهای هتل شمارههای پاسپورت، تاریخهای تولد و دادههای تماس را جمعآوری میکنند. HDPA دریافت که بسیاری از سیستمها این دادهها را برای پنج سال یا بیشتر نگه میدارند. اکثر آنها هیچ هدف اعلامشدهای نداشتند. اکثر آنها کنترلهای امنیتی ضعیفی داشتند.
دادههای پرداخت: هتلها دادههای کارت از مهمانان داخلی و خارجی را پردازش میکنند. فولیوها شمارههای جزئی کارت را نگه میدارند. سیستمهای رزرو جزئیات کامل کارت را نگه میدارند. هر دو PCI DSS و GDPR اعمال میشوند.
کارمندان فصلی: کارکنان مهماننوازی اغلب قراردادهای ۴ تا ۶ ماهه دارند. HDPA موارد زیادی یافت که دسترسی پس از خروج کارمندان حذف نشده بود. این شکاف در بخشهای با جابجایی بالا رایج است.
چکلیست فنی برای انطباق HDPA
برای پردازش اسناد به زبان یونانی، از این حداقل stack استفاده کنید. شناسایی AFM نیاز به اعتبارسنجی Checksum دو مرحلهای modulo دارد. شناسایی AMKA نیاز به تجزیه رقم تاریخ تولد و جنسیت دارد. NER خط یونانی را از طریق spaCy el_core_news اضافه کنید. شناسایی پاسپورت و کارت ملی در هر دو خط را در نظر بگیرید.
برای اپراتورهای گردشگری، دو گام سازمانی نیز مورد نیاز است. اول: دورههای نگهداری داده PMS را مستند کنید. دوم: دسترسی سیستم را هنگام خروج کارمندان فصلی حذف کنید. این گامها رایجترین یافتههای HDPA را برطرف میکنند.
برای طرحهای API مناسب workflowهای سنگین اسناد مهماننوازی، به pricing مراجعه کنید.
anonym.legal شناسایی AFM و AMKA را با اعتبارسنجی کامل Checksum انجام میدهد. از NER خط یونانی از طریق pipeline spaCy el_core_news پشتیبانی میکند.